(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211282962.1
(22)申请日 2022.10.20
(71)申请人 佛山科学技术学院
地址 528011 广东省佛山市江湾一路18号
(72)发明人 齐浩亮 苗晓刚 韩咏 孔蕾蕾
韩中元 曹霞
(74)专利代理 机构 哈尔滨市阳光惠远知识产权
代理有限公司 2321 1
专利代理师 邓宇
(51)Int.Cl.
G06F 16/35(2019.01)
G06N 3/08(2006.01)
G06Q 10/10(2012.01)
G06F 40/30(2020.01)
(54)发明名称
主题集成服务重复材料发现方法、 系统、 设
备和存储介质
(57)摘要
本发明公开了一种主题集成服务重复材料
发现方法、 系统、 设备和存储介质, 涉及信息处理
领域。 所述方法包括: 获取主题集成服务的文件
材料的材料名称和文本信息; 基于特征提取器进
行提取材料名 称和文本信息的全局语义信息特
征; 根据逻辑回归算法进行处理所述的全局语义
信息特征, 判断是否为重复材料。 该方法能够提
高工作效率, 降低重复材 料评估的错 误率。
权利要求书3页 说明书12页 附图1页
CN 115357718 A
2022.11.18
CN 115357718 A
1.主题集成服 务重复材 料发现方法, 其特 征在于, 所述方法包括:
获取主题集成服 务的文件材 料的材料名称和文本信息;
基于特征提取器进行提取 材料名称和文本信息的全局语义信息特 征;
根据逻辑回归算法进行处 理所述全局语义信息特 征, 判断是否为重复材 料。
2.根据权利要求1所述的主题集成服务重复材料发现方法, 其特征在于, 所述基于特征
提取器进行提取 材料名称和文本信息的全局语义信息特 征, 具体为:
去除文件材料的材料名称和文本信息的地域名称与特殊符号, 获取处理后的文本信
息;
添加标志位cls至BERT模型的分字模块, 将两个文件材料的处理后的文本信息拼接为
拼接文本信息, 并利用BERT模型的分字模块进行分字处理所述拼接文本信息, 获取全局 语
义信息特征, 其中, 所述拼接文本信息包括第i个材料xi和第j个材料xj的处理后的文本信
息, 所述全局语义信息特征包括所述拼接文本信息的一维特征向量
, i≥1, j≥1, 且i≠
j:
,
其中,
代表12层结构一致transfromer编码嵌入向量, [0]代表第
一个维度向量。
3.根据权利要求2所述的主题集成服务重复材料发现方法, 其特征在于, 所述根据逻辑
回归算法进行分类处理所述的全局语义信息特征, 判断是否为重复材料, 包括文本信息相
似度概率的计算, 并根据文本信息相似度概率判断是否为重复材料, 其中文本信息相似度
概率的计算具体为:
,
其中, exp是以自然常数e为底的指数函数,
为算法权重向量, P为文本信息相似度概
率。
4.根据权利要求3所述的主题集成服务重复材料发现方法, 其特征在于, 所述根据逻辑
回归算法进行分类处理所述全局语义信息特征, 判断是否为重复材料, 还包括主动学习方
法, 具体为:
设置文本信息相似度概 率阈值, 所述文本信息相似度概 率阈值包括0.8和0.2;
所述文本信息相似度概率大于或等于0.8为重复材料; 所述文本信息相似度概率小于
或等于0.2为 非重复材料; 文本信息相似度概率小于0.8大于0.2的材料为错误分类, 所述错
误分类的材 料进行重新训练。
5.根据权利要求4所述的主题集成服务重复材料发现方法, 其特征在于, 所述重新训练
包括:
通过机器学习的方法获取错 误分类的材 料;
人工标注所述错误分类的材料数据的是否重复标签, 并将所述错误分类的数据进行重权 利 要 求 书 1/3 页
2
CN 115357718 A
2新微调学习, 具体为:
调整预训练权重和逻辑回归算法, 使用交叉熵作为损失函数L, 权重更新使用Adam梯度
下降法:
,
其中, y为人工标注的两个材料的是否重复标签,
为分类模型预测值, L衡量模型预测
值与实际值的差距程度。
6.根据权利要求1所述的主题集成服务重复材料发现方法, 其特征在于, 所述方法还包
括:
将构成主题集成服务文件材料做并集, 以
表示主题集成服务文
件材料的并集, n 为材料的总数;
在所述n个材料中任意选取两个材 料, 合成一组, 判断两个材 料是否重复:
;
其中, 0表示两个材 料不重复, 1表示材 料重复;
提取f()=1的所有材料组合进行输出, 删除所述组合中的任意一份材料xi或xj, xi代表
第i个材料, xj代表第j个材 料。
7.主题集成服 务重复材 料发现系统, 其特 征在于, 所述系统包括:
材料名称和文本信 息获取单元, 用于获取主题集成服务的文件材料的材料名称和文本
信息;
全局语义信 息特征获取单元, 用于基于特征提取器进行提取材料名称和文本信 息的全
局语义信息特 征;
重复材料判断单元, 用于根据逻辑回归算法进行分类处理所述全局语义信息特征, 判
断是否为重复材 料。
8.根据权利要求7所述的主题集成服务重复材料发现系统, 其特征在于, 所述全局语义
信息特征获取单元包括:
处理后的文本信 息获取模块, 用于去除文件材料的材料名称和文本信 息的地域名称与
特殊符号, 获取处 理后的文本信息;
全局语义信息特征获取模块, 用于添加标志位cls至BERT模型的分字模块, 将两个文件
材料的处理后的文本信息拼接为拼接文本信息, 并利用BERT模型的分字模块进 行分字处理
所述拼接文本信息, 获取全局语义信息特征, 其中, 所述拼接文本信息包括第i个材料xi和
第j个材料xj的处理后的文本信息, 所述全局语义信息特征包括所述拼接文本信息 的一维
特征向量
, i≥1, j≥1, 且i≠j:
,
其中,
代表12层结构一致transfromer编码嵌入向量, [0]代表第
一个维度向量。
9.一种计算机设备, 其特征在于: 包括存储器和处理器, 所述存储器中存储有计算机程权 利 要 求 书 2/3 页
3
CN 115357718 A
3
专利 主题集成服务重复材料发现方法、系统、设备和存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:46上传分享