(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210050995.7
(22)申请日 2022.01.17
(71)申请人 中国科学院空天信息创新研究院
地址 100094 北京市海淀区邓庄南路9号
申请人 郑州大学
(72)发明人 陈祖刚 李进 李国庆 李静
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 刘亚平
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
数据查重方法、 装置及电子设备
(57)摘要
本发明提供一种数据查重方法、 装置及电子
设备; 涉及大数据处理技术领域; 能够针对科学
数据进行查重。 该方法包括获取待查重数据集的
元数据和实体数据; 基于元数据计算待查重数据
集与数据库中每个数据集的第一相关度, 第一相
关度为待查重数据集的元数据与数据库中数据
集的元数据之间的相关度; 根据第一相关度筛选
出数据库中需要再次进行查重的候选数据集; 基
于待查重 数据集的实体数据, 计算待查重数据集
与候选数据集的第二相关度, 第二相关度为待查
重数据集的实体数据与候选数据集的实体数据
之间的相关度; 根据第一相关度、 第二相关度确
定待查重数据集的查重结果。
权利要求书2页 说明书13页 附图9页
CN 114547233 A
2022.05.27
CN 114547233 A
1.一种数据查重方法, 其特 征在于, 包括:
获取待查重数据集的元数据和实体数据, 其中, 所述元数据用于描述所述待查重数据
集中包含的科学数据, 所述实体数据为所述待查重数据集中包 含的科学数据;
基于所述元数据计算所述待查重数据集与 数据库中每个数据集的第 一相关度, 所述第
一相关度为所述待查重数据集的所述元数据与所述数据库中数据集的元数据之间的相关
度;
根据所述第一相关度筛 选出所述数据库中 需要再次进行查重的候选数据集;
基于所述待查重数据集的实体数据, 计算所述待查重数据集与 所述候选数据集的第 二
相关度, 所述第二相关度为所述待查重数据集的所述 实体数据与所述候选数据集的实体数
据之间的相关度;
根据所述第一相关度、 所述第二相关度确定所述待查重数据集的查重结果。
2.根据权利要求1所述的数据查重方法, 其特征在于, 所述根据 所述第一相关度筛选出
所述数据库中 需要再次进行查重的候选数据集, 包括:
确定所述第 一相关度 是否在预设范围内, 将所述数据库中所述第 一相关度在预设范围
内的数据集作为所述 候选数据集;
将所述数据库中, 所述第 一相关度 大于所述预设范围内的数据集作为所述待查重数据
集的查重结果。
3.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述元数据计算所述待
查重数据集与数据库中每 个数据集的第一相关度, 包括:
构建主题内容相似度算法;
通过所述主题内容相似度算法计算所述元数据与所述数据库中每个数据集的元数据
的第一相关度。
4.根据权利要求3所述的数据查重方法, 其特 征在于, 所述主题内容相似度算法, 包括:
通过语言知识库将所述待查重数据集的元 数据分为第一语义组和第一统计组, 以及
通过语言知识库将所述数据库中数据集的元 数据分为第二语义组和第二统计组;
计算所述第一语义组与所述第二语义组的相似度;
计算所述第一统计组与所述第二统计组中相匹配的词语的匹配概 率;
根据所述相似度之和与所述匹配概率, 确定所述待查重数据集与所述数据库中一数据
集的第一相关度。
5.根据权利要求1 ‑4任一项所述的数据查重方法, 其特征在于, 所述待查重数据集的所
述元数据包括题目、 关键词、 摘要中的一种或多种类型的数据。
6.根据权利要求2所述的数据查重方法, 其特征在于, 所述预设范围的取值大于0.6且
小于1。
7.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述待查重数据集的实
体数据, 计算所述待查重数据集与所述 候选数据集的第二相关度, 包括:
获取所述待查重数据集的实体数据的第 一摘要编码, 以及所述候选数据集的实体数据
的第二摘要编码;
将所述第一摘要编码与所述第 二摘要编码进行匹配, 确定所述待查重数据集与所述候
选数据集的第二相关度。权 利 要 求 书 1/2 页
2
CN 114547233 A
28.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述待查重数据集的实
体数据, 计算所述待查重数据集与所述 候选数据集的第二相关度, 包括:
获取所述待查重数据集的实体数据的第 一二进制码, 以及所述候选数据集的实体数据
的第二二进制码;
将所述第一二进制 码与所述第 二二进制 码进行匹配, 确定所述待查重数据集与所述候
选数据集的第二相关度。
9.根据权利要求1所述的数据查重方法, 其特征在于, 所述基于所述待查重数据集的实
体数据, 计算所述待查重数据集与所述 候选数据集的第二相关度, 包括:
确定所述待查重数据集的实体数据与候选数据集的实体数据的数据格式;
根据所述数据格式读取 所述待查重数据集的实体数据, 得到第一读取信息, 以及
根据所述数据格式读取 所述候选数据集的实体数据, 得到第二读取信息;
将相同数据格 式对应的所述第 一读取信 息与所述第 二读取信 息进行匹配, 确定所述待
查重数据集与所述 候选数据集的第二相关度。
10.一种数据查重装置, 其特 征在于, 包括:
数据获取模块, 用于获取待查重数据集的元数据和实体数据, 其中, 所述元数据用于描
述所述待查重数据集中包含的科学数据, 所述实体数据为所述待查重数据集中包含的科学
数据;
元数据对比模块, 用于基于所述元数据计算所述待查重数据集与数据库中每个数据集
的第一相关度, 所述第一相关度为所述待查重数据集的所述元数据与所述数据库中数据集
的元数据之间的相关度;
数据筛选模块, 用于根据所述第 一相关度筛选出所述数据库中需要再次进行查重的候
选数据集;
实体数据对比模块, 用于基于所述待查重数据集的实体数据, 计算所述待查重数据集
与所述候选数据集的第二相关度, 所述第二相关度为所述待查重数据集的所述实体数据与
所述候选数据集的实体数据之间的相关度;
结果确定模块, 用于根据所述第一相关度、 所述第二相关度确定所述待查重数据集的
查重结果。
11.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至9任一项所
述的数据查重方法。
12.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算
机程序被处 理器执行时实现如权利要求1至9任一项所述的数据查重方法。
13.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执
行时实现如权利要求1至9任一项所述的数据查重方法。权 利 要 求 书 2/2 页
3
CN 114547233 A
3
专利 数据查重方法、装置及电子设备
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:53上传分享