(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210031549.1
(22)申请日 2022.01.12
(71)申请人 浙江大学
地址 310058 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 高云君 陈璐 朱俊豪 葛丛丛
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 应孔月
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种面向大规模知识图谱的多通道实体对
齐方法及装置
(57)摘要
本发明公开了一种面向大规模知识图谱的
多通道实体对齐方法及装置, 该方法包括: 获取
两个大规模知识图谱; 将两个大规模知识图谱中
已知的对齐的实体对添加到训练集; 根据两个大
规模知识图谱中每一个实体的名字, 提取语义特
征矩阵和字面特征矩阵; 根据所述语义特征矩阵
和字面特征矩阵, 构建名字特征矩阵; 根据所述
名字特征矩阵, 对训练集进行数据扩充; 根据扩
充后的训练集, 利用小批次生成策略, 将源知识
图谱和目标知识图谱划分成若干子图; 获取每个
子图中实体的结构特征并根据所述结构特征, 构
建结构特征矩阵; 对所述名字特征矩阵和结构特
征矩阵进行融合, 得到所述两个大规模知识图谱
的实体对齐结果。
权利要求书3页 说明书9页 附图4页
CN 114461812 A
2022.05.10
CN 114461812 A
1.一种面向大规模知识图谱的多通道实体对齐方法, 其特 征在于, 包括:
获取两个大规模知识图谱, 分别记为源知识图谱和目标知识图谱, 其中, 每个所述大规
模知识图谱 包括若干知识多元组, 每 个所述知识多元组包括两个实体;
将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
根据所述两个大规模知识图谱中每一个实体的名字, 提取语义特征矩阵和字面特征矩
阵;
根据所述语义特征矩阵和字面特征矩阵, 构建名字特征矩阵, 将所述名字特征矩阵作
为名字特 征通道的输出;
根据所述名字特 征矩阵, 对训练集进行 数据扩充;
根据扩充后的训练集, 利用小批次生成策略, 将源知识图谱和目标知识图谱划分成若
干子图;
获取每个子 图中实体的结构特征并根据所述结构特征, 构建结构特征矩阵, 将所述结
构特征矩阵作为结构特 征通道的输出;
对所述名字特征矩阵和结构特征矩阵进行融合, 得到所述两个大规模知识图谱的实体
对齐结果。
2.根据权利要求1所述的方法, 其特征在于, 根据 所述两个大规模知识图谱中每一个实
体的名字, 提取语义特 征矩阵和字面特 征矩阵, 包括:
将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
为所有标记分配相同维度的嵌入向量并获取 所述标记对应的所述嵌入向量的最大值;
将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特 征;
根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度, 构建语义
特征矩阵;
根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度, 构建字面
特征矩阵。
3.根据权利要求1所述的方法, 其特征在于, 根据所述名字特征矩阵, 对训练集进行数
据扩充, 包括:
根据所述名字特征矩阵, 得到两个大规模知识图谱中每一个实体与另一大规模知识图
谱中所有实体的相似度;
若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的
实体, 则将一对实体作为对齐的实体;
将所有对齐的实体添加到训练集中。
4.根据权利要求1所述的方法, 其特征在于, 根据扩充后的训练集, 利用小批次生成策
略, 将源知识图谱和目标知识图谱划分成若干 子图, 包括:
为所述源知识图谱和目标知识图谱中的连边分配相同的权 重;
将所述源知识图谱划分成若干 子图, 每个子图包 含若干第一实体;
获取与所述第一实体对应的目标知识图谱中的第二实体;
在随机选取的预定数量的第二实体和其余第二实体之间加上虚构连边并为所述虚构
连边设置远大于1的权 重;
如果训练集中两个来自源知识图谱的实体之间不存在虚拟连边且对应的两个来自目权 利 要 求 书 1/3 页
2
CN 114461812 A
2标知识图谱的实体之间存在虚拟连边, 那么将这些来自目标知识图谱的实体之 间的连边权
重设置为0;
根据设定的权 重, 将目标知识图谱划分为若干 子图。
5.一种面向大规模知识图谱的多通道实体对齐装置, 其特 征在于, 包括:
获取模块, 用于获取两个大规模知识图谱, 分别记为源知识图谱和目标知识图谱, 其
中, 每个所述大规模知识图谱 包括若干知识多元组, 每 个所述知识多元组包括两个实体;
添加模块, 用于将所述两个大规模知识图谱中已知的对齐的实体对添加到训练集;
提取模块, 用于根据所述两个大规模知识图谱中每一个实体的名字, 提取语义特征矩
阵和字面特 征矩阵;
第一构建模块, 用于根据 所述语义特征矩阵和字面特征矩阵, 构建名字特征矩阵, 将所
述名字特 征矩阵作为名字特 征通道的输出;
扩充模块, 用于根据所述名字特 征矩阵, 对训练集进行 数据扩充;
划分模块, 用于根据扩充后的训练集, 利用小批次生成策略, 将源知识图谱和目标知识
图谱划分成若干 子图;
第二构建模块, 用于获取每个子 图中实体的结构特征并根据所述结构特征, 构建结构
特征矩阵, 将所述结构特 征矩阵作为结构特 征通道的输出;
融合模块, 用于对所述名字特征矩阵和结构特征矩阵进行融合, 得到所述两个大规模
知识图谱的实体对齐结果。
6.根据权利要求5所述的装置, 其特征在于, 根据 所述两个大规模知识图谱中每一个实
体的名字, 提取语义特 征矩阵和字面特 征矩阵, 包括:
将所述两个大规模知识图谱中每一个实体的名字转换成标记序列;
为所有标记分配相同维度的嵌入向量并获取 所述标记对应的所述嵌入向量的最大值;
将所述标记对应的所述嵌入向量的最大值作为所述标记对应的实体名字的语义特 征;
根据源知识图谱和目标知识图谱中两两实体之间名字的语义特征的相似度, 构建语义
特征矩阵;
根据源知识图谱和目标知识图谱中两两实体之间名字的字面特征的相似度, 构建字面
特征矩阵。
7.根据权利要求5所述的装置, 其特征在于, 根据所述名字特征矩阵, 对训练集进行数
据扩充, 包括:
根据所述名字特征矩阵, 得到两个大规模知识图谱中每一个实体与另一大规模知识图
谱中所有实体的相似度;
若来自不同知识图谱的实体都恰好是在各自知识图谱中与另一实体的相似度最高的
实体, 则将一对实体作为对齐的实体;
将所有对齐的实体添加到训练集中。
8.根据权利要求5所述的装置, 其特征在于, 根据扩充后的训练集, 利用小批次生成策
略, 将源知识图谱和目标知识图谱划分成若干 子图, 包括:
为所述源知识图谱和目标知识图谱中的连边分配相同的权 重;
将所述源知识图谱划分成若干 子图, 每个子图包 含若干第一实体;
获取与所述第一实体对应的目标知识图谱中的第二实体;权 利 要 求 书 2/3 页
3
CN 114461812 A
3
专利 一种面向大规模知识图谱的多通道实体对齐方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:57上传分享