(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211161242.X
(22)申请日 2022.09.23
(65)同一申请的已公布的文献号
申请公布号 CN 115239214 A
(43)申请公布日 2022.10.25
(73)专利权人 建信金融科技有限责任公司
地址 200120 上海市浦东 新区自由贸易试
验区银城路9 9号12层、 15层
(72)发明人 陈达纲 张晨 王婷玉 李昱
王全礼 张圳 蒲柯锐
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
专利代理师 王潇 黄健
(51)Int.Cl.
G06Q 10/06(2012.01)
G06Q 40/02(2012.01)
G06F 40/194(2020.01)G06F 40/247(2020.01)
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(56)对比文件
CN 114625834 A,202 2.06.14
CN 111539197 A,2020.08.14
CN 112632980 A,2021.04.09
CN 10794 4480 A,2018.04.20
CN 114625834 A,202 2.06.14
CN 112215288 A,2021.01.12
US 2020202181 A1,2020.0 6.25
US 20213 65444 A1,2021.1 1.25
冯建周等.基 于迁移学习的细粒度实体分类
方法的研究. 《自动化学报》 .2020,(第08 期),
李雪蕾等.一种基 于向量空间模型的文本分
类方法. 《计算机 工程》 .20 03,(第17期),
审查员 尹文博
(54)发明名称
企业的评估处 理方法、 装置及电子设备
(57)摘要
本申请提供一种企业的评估处理方法、 装置
及电子设备, 涉及知识图谱技术领域。 该企业的
评估处理方法, 服务器将文本长度大于预设的长
度阈值的第一文本划分为多个子文本, 并确定各
子文本与预设的第二文本的语义匹配度。 这样一
来, 可以使得第一文本中的所有内容与第二文本
进行语义匹配。 这样一来, 使得对得到的各语义
匹配度加权求和, 得到第一文本与第二文本的第
一相似度的可靠性高。 进而, 服务器根据第一相
似度对企业进行分类, 得到企业的类别的精确度
高, 评估处理的结果的可靠性也高, 并且无需人
工操作, 提高了对企业的评估处 理的效率。
权利要求书3页 说明书9页 附图5页
CN 115239214 B
2022.12.27
CN 115239214 B
1.一种企业的评估处 理方法, 其特 征在于, 应用于服 务器, 所述方法包括:
所述服务器获取评估请求, 所述评估请求中包括待评估的企业;
根据所述评估请求, 获取与所述待评估的企业的第 一文本, 其中, 所述第 一文本用于指
示所述企业的经 营范围, 所述第一文本的文本 长度大于预设的长度阈值;
所述服务器将所述第 一文本划分为多个子文本, 并确定各所述子文本与预设的第 二文
本的语义匹配度, 其中, 所述子文本的文本长度小于所述长度阈值, 所述第二文本为包含有
描述绿色企业的关键词的文本;
所述服务器对各所述语义匹配度加权求和, 获取所述第 一文本与所述第 二文本的第 一
相似度;
所述服务器根据 所述第一相似度, 确定所述待评估的企业的类别, 其中, 所述企业的类
别为绿色企业或非绿色企业;
所述服务器根据获取的与 所述待评估的企业的类别对应的评估模式, 对所述待评估的
企业进行评估处 理;
在所述服务器根据所述第一相似度对所述企业进行分类, 得到所述企业的类别之前,
所述方法还 包括:
所述服务器获取企业的第三文本, 其中, 所述第三文本用于描述所述企业的专利 信息;
所述服务器从所述第三文本中提取 出第一实体向量 集合;
所述服务器对所述第 一实体向量集合中的各第 一实体进行同义词泛化, 得到第 二实体
向量集合;
所述服务器根据所述第一相似度, 确定所述待评估的企业的类别, 包括:
所述服务器将所述第 一相似度和所述第 二实体向量集合构 成的待识别文本, 并采用预
训练的分类模型对所述待识别文本进行分类, 并根据所述待识别文本的分类结果, 确定所
述待评估的企业的类别。
2.根据权利要求1所述的方法, 其特征在于, 在所述服务器根据所述第一相似度, 确定
所述待评估的企业的类别之前, 所述方法还 包括:
所述服务器将所述第 一文本与所述第 二文本进行关键词匹配, 得到所述第 一文本与 所
述第二文本的第二相似度;
则所述服务器根据所述第一相似度, 确定所述待评估的企业的类别, 包括:
所述服务器对所述第 一相似度和所述第 二相似度进行加权求和, 以确定所述第 一文本
与所述第二文本的第三相似度;
所述服务器根据所述第三相似度, 确定所述待评估的企业的类别。
3.根据权利要求2所述的方法, 其特征在于, 所述服务器对所述第 一相似度和所述第 二
相似度进行加权求和, 以确定所述第一文本与所述第二文本的第三相似度, 包括:
所述服务器根据所述第一相似度
和所述第二相似度Sdoc, 采用公式:
以确定所述第一文本与所述第二文本的第三相似度Scored;权 利 要 求 书 1/3 页
2
CN 115239214 B
2其中, a为第一权重, 且a为取值范围为[0, 1],
为第二权重,
的取值范围为[0, 1],
为语义匹配度, n 为所述子文本的数量; i 为正整数。
4.根据权利要求1所述的方法, 其特征在于, 所述分类模型是采用获取的待训练 的输入
数据, 以及输出 数据, 对初始的待训练网络进行训练得到的;
其中, 所述输入数据为多个历史待识别文本, 所述输出数据为多个历史待识别文本的
类别。
5.根据权利要求1所述的方法, 其特征在于, 所述第三文本包括专利名称, 所述服务器
对所述第一实体向量 集合中的各第一实体进行同义词泛化, 得到第二实体向量 集合, 包括:
所述服务器对所述第三文本中的专利名称进行向量 化, 并提取第一实体向量 集合;
所述服务器查找出所述第一实体向量集合中的各第一实体向量的语义相近的实体向
量A;
所述服务器查找出 各所述实体向量A的语义相近的实体向量B;
所述服务器计算所述第一实体向量集合、 所述实体向量A的集合以及所述实体向量B的
集合中, 各语义相近的实体向量的平均值向量, 得到所述第二实体向量 集合。
6.根据权利要求1所述的方法, 其特征在于, 所述服务器对所述第 一实体向量集合中的
各第一实体进行同义词泛化, 得到第二实体向量 集合, 包括:
所述服务器将所述第三文本进行向量 化, 并提取第一实体向量 集合;
所述服务器根据TransR算法, 从预设的知识图谱中查找出所述第一实体向量集合中的
各第一实体的语义相近的实体向量A;
所述服务器将所述第一实体向量集合、 所述实体向量A的集合的并集, 作为所述第二实
体向量集合。
7.一种企业的评估处 理装置, 其特 征在于, 应用于服 务器, 所述装置包括:
请求获取 单元, 用于获取评估请求, 所述评估请求中包括待评估的企业;
文本获取单元, 用于根据所述评估请求, 获取与所述待评估的企业的第一文本, 其中,
所述第一文本用于指示所述 企业的经营范围, 所述第一文本的文本长度大于预设的长度阈
值;
语义匹配单元, 用于将所述第一文本划分为多个子文本, 并确定各所述子文本与预设
的第二文本的语义匹配度, 其中, 所述子文本的文本长度小于所述长度阈值, 所述第二文本
为包含有描述绿色企业的关键词的文本;
相似度计算单元, 用于对各所述语义匹配度加权求和, 获取所述第一文本与所述第二
文本的第一相似度;
企业分类单元, 用于根据所述第一相似度, 确定所述待评估的企业的类别, 其中, 所述
企业的类别为绿色企业或非绿色企业;
企业评估单元, 用于根据获取的与所述待评估的企业的类别对应的评估模式, 对所述
待评估的企业进行评估处 理;
所述文本获取单元, 还用于获取企业的第三文本, 其中, 第 三文本用于描述所述企业的
专利信息;
所述装置还包括: 数据泛化单元, 用于从第三文本 中提取出第一实体向量集合; 对第一
实体向量 集合中的各第一实体进行同义词泛化, 得到第二实体向量 集合;权 利 要 求 书 2/3 页
3
CN 115239214 B
3
专利 企业的评估处理方法、装置及电子设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:01上传分享