(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210061616.4
(22)申请日 2022.01.19
(71)申请人 中国平安人寿保险股份有限公司
地址 518000 广东省深圳市福田区益田路
5033号平安金融中心14、 15、 16、 37、
41、 44、 45、 46层
(72)发明人 马建
(74)专利代理 机构 深圳众鼎专利商标代理事务
所(普通合伙) 44325
代理人 张美君
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
内容召回方法、 装置、 计算机设备及存储介
质
(57)摘要
本发明公开了一种内容召回方法、 装置、 计
算机设备及存储介质, 应用于人工智能技术领
域, 用于提高获取召回内容的准确性。 本发明提
供的方法包括: 获取目标语料, 并将所述目标语
料输入到 预设的句向量表征模型中, 得到所述目
标语料的语料表征向量; 获取预设的召回候选
集, 并基于语义识别方式, 对所述目标语料和召
回候选集进行语义识别, 得到语义识别结果, 并
基于所述语义识别结果, 得到候选语料集, 并生
成候选语料集的候选语料向量, 并计算每个所述
候选语料向量和所述语料表征向量的向量相似
度, 得到向量相似度值; 将所述向量相似度值大
于预设向量相似度阈值的候选语料进行组合, 得
到所述目标语料对应的召回内容。
权利要求书2页 说明书11页 附图2页
CN 114428838 A
2022.05.03
CN 114428838 A
1.一种内容召回方法, 其特 征在于, 包括:
获取目标语料, 并将所述目标语料输入到预设的句向量表征模型中, 得到所述目标语
料的语料表征向量, 其中, 所述预设的句向量表征模型基于对比学习模型构建;
获取预设的召回候选集, 其中, 所述召回候选集中包 含至少两个候选召回语料;
基于语义识别方式, 对所述目标语料和每个所述候选召回语料进行语义识别, 得到语
义识别结果, 并基于所述语义识别结果, 得到候选语料集, 其中, 所述候选语料集包含至少
两个候选语料;
生成每个所述候选语料的候选语料向量, 并计算每个所述候选语料向量和所述语料表
征向量的向量相似度, 得到向量相似度值;
将所述向量相似度值大于预设 向量相似度阈值的候选语料进行组合, 得到所述目标语
料对应的召回内容。
2.根据权利要求1所述的内容召回方法, 其特征在于, 在所述获取目标语料, 并将所述
目标语料输入到预设的句向量表征模型中, 得到所述目标语料的语料表征向量之前, 包括:
获取训练数据, 将所述训练数据输入到预训练模型中生成训练表征向量, 并基于所述
训练表征向量 生成损失优化 函数, 其中, 所述预训练模型基于对比学习模型构建;
将所述训练数据输入到所述预训练模型中, 并基于所述预训练模型的初始参数和损失
优化函数进 行参数迭代, 直到迭代停止后, 得到训练之后的预训练模 型, 作为预设的句向量
表征模型。
3.根据权利要求2所述的内容召回方法, 其特征在于, 所述获取训练数据, 将所述训练
数据输入到预训练模型中生成训练表征向量, 并基于所述训练表征向量生成损失优化函数
包括:
将所述训练数据中的第一样本数据输入到预训练模型的dropout编码器中, 得到第一
预测向量, 基于第一样本数据的嵌入标签和所述第一预测向量, 生成第一损失函数;
将所述第一样本数据输入到所述预训练模型的dropout编码器 中, 得到第二预测向量,
基于所述第一预测向量和所述第二预测向量, 得到第二损失函数;
基于对比损失函数, 根据所述第一预测向量和所述第二预测向量 生成第三损失函数;
将所述第一损 失函数、 所述第二损 失函数以及所述第三损 失函数进行权重求和, 得到
所述损失优化 函数。
4.根据权利要求1所述的内容召回方法, 其特征在于, 所述获取目标语料, 并将所述目
标语料输入到预设的句向量表征模型中, 得到所述目标语料的 的语料表征向量包括:
获取用户输入的的文本语料, 对所述文本语料进行标准化处理, 得到标准语料, 作为目
标语料;
将所述目标语料输入到预设的句向量表征模型中, 得到所述目标语料的语料表征向
量。
5.根据权利要求1所述的内容召回方法, 其特征在于, 所述基于语义识别方式, 对所述
目标语料和每个所述候选召回语料进行语义识别, 得到语义识别结果, 并基于所述语义识
别结果, 得到候选语料集包括:
对所述预设的召回候选集中的候选召回语料进行语义消歧和语义识别, 得到所述候选
召回语料的候选语义特 征和候选情绪特 征;权 利 要 求 书 1/2 页
2
CN 114428838 A
2对所述目标语料进行语义识别, 得到所述目标语料的目标语义特 征和目标情绪特 征;
基于所述候选语义特征和所述目标语义特征, 确定语义特征相似度, 并基于所述候选
情绪特征和所述目标情绪特征, 确定情绪特征相似度, 将所述语义特征相似度和所述情绪
特征相似度作为所述语义识别结果;
根据所述语义识别结果, 得到所述候选召回语料和所述目标语料的语义相似度结果,
将所述语义相似度结果大于预设语义相似度阈值的候选召回语料组合, 得到候选语料集,
其中, 所述 候选语料集包 含至少两个候选语料。
6.根据权利要求1所述的内容召回方法, 其特征在于, 所述生成每个所述候选语料的候
选语料向量, 并计算每个所述候选语料向量和所述语料表征向量的向量相似度, 得到 向量
相似度值包括:
将每个所述候选语料输入到预设的句向量表征模型中, 生成每个所述候选语料对应的
候选语料向量;
基于余弦相似度, 计算每个所述候选语料向量与所述语料表征向量的向量相似度, 得
到向量相似度值。
7.根据权利要求1所述的内容召回方法, 其特征在于, 所述将所述向量相似度值大于预
设向量相似度阈值的候选语料进行组合, 得到所述目标语料对应的召回内容包括:
获取向量相似度值大于预设向量相似度阈值的候选语料, 作为待召回语料;
根据每个所述待召回语料的向量相似度值, 从高到低对每个所述待召回语料进行排
序, 得到排序结果, 并将所述 排序结果作为所述目标 预料对应的召回内容。
8.一种内容召回装置, 其特 征在于, 包括:
语料表征向量生成模块, 用于获取目标语料, 并将所述目标语料输入到预设的句向量
表征模型中, 得到所述目标语料的语料表征向量, 其中, 所述预设的句向量表征模型基于对
比学习模型构建;
召回候选集获取模块, 用于获取预设的召回候选集, 其中, 所述召回候选集中包含至少
两个候选召回语料;
语义识别模块, 用于基于语义识别方式, 对所述目标语料和每个所述候选召回语料进
行语义识别, 得到语义识别结果, 并基于所述语义识别结果, 得到候选语料集, 其中, 所述候
选语料集包 含至少两个候选语料;
相似度计算模块, 用于生成每个所述候选语料的候选语料向量, 并计算每个所述候选
语料向量和所述语料表征向量的向量相似度, 得到向量相似度值;
内容召回模块, 用于将所述向量相似度值大于预设 向量相似度阈值的候选语料进行组
合, 得到所述目标语料对应的召回内容。
9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器
上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至
7中任一项所述内容召回方法的步骤。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处理器执行时实现如权利要求 1至7中任一项 所述内容召回方法的步
骤。权 利 要 求 书 2/2 页
3
CN 114428838 A
3
专利 内容召回方法、装置、计算机设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:51上传分享