(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210928494.4
(22)申请日 2022.08.03
(65)同一申请的已公布的文献号
申请公布号 CN 114996482 A
(43)申请公布日 2022.09.02
(73)专利权人 北京达佳互联信息技 术有限公司
地址 100085 北京市海淀区上地西路6号1
幢1层101D1-7
(72)发明人 潘浩杰 张裕舟 梅立军 李月雷
付瑞吉
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 贾允
(51)Int.Cl.
G06F 16/36(2019.01)G06F 16/783(2019.01)
G06F 40/279(2020.01)
(56)对比文件
CN 114328799 A,2022.04.12
CN 114780755 A,2022.07.22
CN 10914515 3 A,2019.01.04
US 20202 26133 A1,2020.07.16
CN 114186074 A,202 2.03.15
审查员 马春黎
(54)发明名称
知识图谱构建、 视频搜索方法、 装置及电子
设备
(57)摘要
本公开关于一种知识图谱构建、 视频搜索方
法、 装置及电子设备, 该方法包括获取目标知识
类视频、 目标搜索信息和预设知识库中的第一数
量个预设文本对, 目标搜索信息为具有搜索知识
类视频意图的搜索信息, 从目标搜索信息中, 提
取第二数量个搜索文本对, 对第二数量个搜索文
本对和第一数量个预设文本对进行融合处理, 得
到包括多个分支的初始知识图谱; 多个 分支以词
条和知识点为节点, 以词条和知识点间的搜索关
联关系, 以及知识点间的上下位关系为边; 基于
每一分支上的词条和知 识点, 从目标知识类视频
中, 筛选出挂载视频; 基于初始知识图谱和挂载
视频, 构建目标知识图谱。 利用本公开实施例可
以提升知识 图谱对搜索信息的表征精准性和有
效性。
权利要求书4页 说明书20页 附图7页
CN 114996482 B
2022.11.11
CN 114996482 B
1.一种知识图谱构建方法, 其特 征在于, 包括:
获取目标知识类视频、 目标搜索信息和预设知识库中的第一数量个预设文本对, 所述
目标搜索信息为具有搜索知识类视频意图的搜索信息, 任一所述预设文本对包括存在搜索
关联关系的知识点和词条;
从所述目标搜索信息中, 提取第二数量个搜索文本对, 任一所述搜索文本对包括存在
所述搜索关联关系的知识点和词条;
对所述第二数量个搜索文本对和所述第 一数量个预设文本对进行融合处理, 得到初始
知识图谱; 所述初始知识图谱包括多个分支, 所述多个分支以目标词条和目标知识点为节
点, 以所述 目标词条和所述 目标知识点间的所述搜索关联关系, 以及所述 目标知识点间的
上下位关系为边; 所述目标词条为所述第二数量个搜索 文本对和所述第一数量个预设文本
对中的词条; 所述目标知识 点为所述第二数量个搜索 文本对和所述第一数量个预设文本对
中的知识点;
基于所述初始知识图谱中每一分支上的词条和知识点, 从所述目标知识类视频中, 筛
选出所述每一分支对应的挂载视频;
基于所述初始知识图谱和所述每一分支对应的挂载视频, 构建目标知识图谱。
2.根据权利要求1所述的知识图谱构建方法, 其特征在于, 所述对所述第 二数量个搜索
文本对和所述第一数量个预设文本对进行融合处 理, 得到初始知识图谱 包括:
对所述第二数量个搜索文本对和所述第 一数量个预设文本对进行去重处理, 得到第 三
数量个目标文本对;
对所述第三数量个目标文本对中同一词条对应的知识点进行聚类处理, 得到所述第 三
数量个目标文本对中每一词条对应的初始聚类知识点;
基于所述初始聚类知识点对所述第 三数量个目标文本对进行知识点去重处理, 得到第
四数量个目标文本对;
基于上下位识别网络, 对所述第 四数量个目标文本对中两两知识点进行上下位识别,
得到上下位识别结果, 所述上下位识别结果表征所述两两知识 点间是否存在所述上下位关
系;
以所述第四数量个目标文本对中的词条和知识点为节点, 以所述第四数量个目标文本
对中的词条和知识 点间的所述搜索关联关系, 以及所述两两知识点间的所述上下位关系为
边, 构建所述初始知识图谱。
3.根据权利要求2所述的知识图谱构建方法, 其特征在于, 所述对所述第 三数量个目标
文本对中同一词条对应的知识点进行聚类处理, 得到所述第三数量个目标文本对中每一词
条对应的初始聚类知识点包括:
获取所述第三数量个目标文本对各自对应的文本对特 征信息;
对所述第三数量个目标文本对中同一词条对应的文本对特征信 息进行聚类处理, 得到
所述第三数量个目标文本对中每一词条对应的聚类特 征中心;
确定所述同一词条对应的文本对特征信息中每一文本特征信息与对应的聚类特征中
心间的相似度;
确定所述同一词条对应的文本对特征信息中对应的相似度最大的目标文本对特征信
息;权 利 要 求 书 1/4 页
2
CN 114996482 B
2将所述目标文本对特征信息对应的目标文本对中的知识点, 作为所述初始聚类知识
点。
4.根据权利要求2所述的知识图谱构建方法, 其特征在于, 在所述基于上下位识别网
络, 对所述第四数量个目标文本对中两两知识 点进行上下位识别, 得到上下位识别结果, 所
述上下位识别结果表征所述两两知识点间是否存在所述上下位关系之前, 所述方法还包
括:
将所述第四数量个目标文本对输入知识点识别网络进行知识点识别, 得到所述第四数
量个目标文本对对应的知识 点识别结果, 所述知识 点识别结果表征所述第四数量个目标文
本对中是否包括知识点;
将所述第四数量个目标文本对中, 对应知识点识别结果指示未包括知识点的目标文本
对进行过滤, 得到第五数量个目标文本对;
所述基于上下位识别网络, 对所述第四数量个目标文本对中两两知识点进行上下位识
别, 得到上下位识别结果, 所述上下位识别结果表征所述两两知识点间是否存在所述上下
位关系包括:
基于上下位识别网络, 对所述第五数量个目标文本对中两两知识点进行上下位识别,
得到上下位识别结果, 所述上下位识别结果表征所述两两知识 点间是否存在所述上下位关
系;
所述以所述第四数量个目标文本对中的词条和知识点为节点, 以所述第四数量个目标
文本对中的词条和知识 点间的所述搜索关联关系, 以及所述两两知识点间的所述上下位关
系为边, 构建所述初始知识图谱 包括:
以所述第五数量个目标文本对中的词条和知识点为节点, 以所述第五数量个目标文本
对中的词条和知识 点间的所述搜索关联关系, 以及所述两两知识点间的所述上下位关系为
边, 构建所述初始知识图谱。
5.根据权利要求1至4任一所述的知识图谱构建方法, 其特征在于, 在所述对所述第二
数量个搜索文本对和所述第一数量个预设文本对进行融合处理, 得到初始知识图谱之前,
所述方法还 包括:
对所述第二数量个搜索文本对进行聚合处理, 得到第六数量个搜索文本对组, 每个搜
索文本对组包括至少一个相同的搜索文本对;
确定所述每 个搜索文本对组中文本对数量;
将所述第六数量个搜索文本对组中所述文本对数量不大于预设数量阈值的搜索文本
对组进行 过滤, 得到第七数量个搜索文本对组;
所述对所述第 二数量个搜索文本对和所述第 一数量个预设文本对进行融合处理, 得到
初始知识图谱 包括:
对所述第七数量个搜索文本对组中的搜索文本对和所述第一数量个预设文本对进行
融合处理, 得到所述初始知识图谱。
6.根据权利要求5所述的知识图谱构建方法, 其特征在于, 在所述对所述第七数量个搜
索文本对组中的搜索 文本对和所述第一数量个预设文本对进 行融合处理, 得到所述初始知
识图谱之前, 所述方法还 包括:
从所述第七数量个搜索文本对组中分别抽取一个搜索文本对, 得到所述第七数量个搜权 利 要 求 书 2/4 页
3
CN 114996482 B
3
专利 知识图谱构建、视频搜索方法、装置及电子设备
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:44:14上传分享