(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211282962.1 (22)申请日 2022.10.20 (71)申请人 佛山科学技术学院 地址 528011 广东省佛山市江湾一路18号 (72)发明人 齐浩亮 苗晓刚 韩咏 孔蕾蕾  韩中元 曹霞  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 邓宇 (51)Int.Cl. G06F 16/35(2019.01) G06N 3/08(2006.01) G06Q 10/10(2012.01) G06F 40/30(2020.01) (54)发明名称 主题集成服务重复材料发现方法、 系统、 设 备和存储介质 (57)摘要 本发明公开了一种主题集成服务重复材料 发现方法、 系统、 设备和存储介质, 涉及信息处理 领域。 所述方法包括: 获取主题集成服务的文件 材料的材料名称和文本信息; 基于特征提取器进 行提取材料名 称和文本信息的全局语义信息特 征; 根据逻辑回归算法进行处理所述的全局语义 信息特征, 判断是否为重复材料。 该方法能够提 高工作效率, 降低重复材 料评估的错 误率。 权利要求书3页 说明书12页 附图1页 CN 115357718 A 2022.11.18 CN 115357718 A 1.主题集成服 务重复材 料发现方法, 其特 征在于, 所述方法包括: 获取主题集成服 务的文件材 料的材料名称和文本信息; 基于特征提取器进行提取 材料名称和文本信息的全局语义信息特 征; 根据逻辑回归算法进行处 理所述全局语义信息特 征, 判断是否为重复材 料。 2.根据权利要求1所述的主题集成服务重复材料发现方法, 其特征在于, 所述基于特征 提取器进行提取 材料名称和文本信息的全局语义信息特 征, 具体为: 去除文件材料的材料名称和文本信息的地域名称与特殊符号, 获取处理后的文本信 息; 添加标志位cls至BERT模型的分字模块, 将两个文件材料的处理后的文本信息拼接为 拼接文本信息, 并利用BERT模型的分字模块进行分字处理所述拼接文本信息, 获取全局 语 义信息特征, 其中, 所述拼接文本信息包括第i个材料xi和第j个材料xj的处理后的文本信 息, 所述全局语义信息特征包括所述拼接文本信息的一维特征向量 , i≥1, j≥1, 且i≠ j: , 其中, 代表12层结构一致transfromer编码嵌入向量, [0]代表第 一个维度向量。 3.根据权利要求2所述的主题集成服务重复材料发现方法, 其特征在于, 所述根据逻辑 回归算法进行分类处理所述的全局语义信息特征, 判断是否为重复材料, 包括文本信息相 似度概率的计算, 并根据文本信息相似度概率判断是否为重复材料, 其中文本信息相似度 概率的计算具体为: , 其中, exp是以自然常数e为底的指数函数, 为算法权重向量, P为文本信息相似度概 率。 4.根据权利要求3所述的主题集成服务重复材料发现方法, 其特征在于, 所述根据逻辑 回归算法进行分类处理所述全局语义信息特征, 判断是否为重复材料, 还包括主动学习方 法, 具体为: 设置文本信息相似度概 率阈值, 所述文本信息相似度概 率阈值包括0.8和0.2; 所述文本信息相似度概率大于或等于0.8为重复材料; 所述文本信息相似度概率小于 或等于0.2为 非重复材料; 文本信息相似度概率小于0.8大于0.2的材料为错误分类, 所述错 误分类的材 料进行重新训练。 5.根据权利要求4所述的主题集成服务重复材料发现方法, 其特征在于, 所述重新训练 包括: 通过机器学习的方法获取错 误分类的材 料; 人工标注所述错误分类的材料数据的是否重复标签, 并将所述错误分类的数据进行重权 利 要 求 书 1/3 页 2 CN 115357718 A 2新微调学习, 具体为: 调整预训练权重和逻辑回归算法, 使用交叉熵作为损失函数L, 权重更新使用Adam梯度 下降法: , 其中, y为人工标注的两个材料的是否重复标签, 为分类模型预测值, L衡量模型预测 值与实际值的差距程度。 6.根据权利要求1所述的主题集成服务重复材料发现方法, 其特征在于, 所述方法还包 括: 将构成主题集成服务文件材料做并集, 以 表示主题集成服务文 件材料的并集, n 为材料的总数; 在所述n个材料中任意选取两个材 料, 合成一组, 判断两个材 料是否重复: ; 其中, 0表示两个材 料不重复, 1表示材 料重复; 提取f()=1的所有材料组合进行输出, 删除所述组合中的任意一份材料xi或xj, xi代表 第i个材料, xj代表第j个材 料。 7.主题集成服 务重复材 料发现系统, 其特 征在于, 所述系统包括: 材料名称和文本信 息获取单元, 用于获取主题集成服务的文件材料的材料名称和文本 信息; 全局语义信 息特征获取单元, 用于基于特征提取器进行提取材料名称和文本信 息的全 局语义信息特 征; 重复材料判断单元, 用于根据逻辑回归算法进行分类处理所述全局语义信息特征, 判 断是否为重复材 料。 8.根据权利要求7所述的主题集成服务重复材料发现系统, 其特征在于, 所述全局语义 信息特征获取单元包括: 处理后的文本信 息获取模块, 用于去除文件材料的材料名称和文本信 息的地域名称与 特殊符号, 获取处 理后的文本信息; 全局语义信息特征获取模块, 用于添加标志位cls至BERT模型的分字模块, 将两个文件 材料的处理后的文本信息拼接为拼接文本信息, 并利用BERT模型的分字模块进 行分字处理 所述拼接文本信息, 获取全局语义信息特征, 其中, 所述拼接文本信息包括第i个材料xi和 第j个材料xj的处理后的文本信息, 所述全局语义信息特征包括所述拼接文本信息 的一维 特征向量 , i≥1, j≥1, 且i≠j: , 其中, 代表12层结构一致transfromer编码嵌入向量, [0]代表第 一个维度向量。 9.一种计算机设备, 其特征在于: 包括存储器和处理器, 所述存储器中存储有计算机程权 利 要 求 书 2/3 页 3 CN 115357718 A 3

PDF文档 专利 主题集成服务重复材料发现方法、系统、设备和存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 主题集成服务重复材料发现方法、系统、设备和存储介质 第 1 页 专利 主题集成服务重复材料发现方法、系统、设备和存储介质 第 2 页 专利 主题集成服务重复材料发现方法、系统、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。