(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210035461.7
(22)申请日 2022.01.12
(71)申请人 平安普惠企业管理有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 刘欢
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
代理人 高杰 于志光
(51)Int.Cl.
G06F 40/258(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
(54)发明名称
基于人工智能的主题提取方法、 装置、 电子
设备及介质
(57)摘要
本发明涉及人工智能领域, 揭露一种基于人
工智能的主题提取方法, 包括: 对样本集执行数
据增强处理, 得到增强样本集; 将增强样本集划
分为正样 本对及负样本对, 基于正样本对的特征
向量之间的相似性及负样本对的特征向量之间
的不相似性确定第一损失函数; 将增强样本集中
每个样本的特征向量输入主题提取模型的主题
提取网络, 基于输出的主题提取结果确定第二损
失函数; 通过最小化第一及第二损失函数加总得
到的总损失函数确定主题提取模 型的结构参数;
将待处理文本中每个字符的字向量输入训练好
的主题提取模型, 得到目标主题。 本发明还提供
一种基于 人工智能的主题提取装置、 电子设备及
介质。 本发明提高了主题提取准确性。
权利要求书3页 说明书12页 附图2页
CN 114398877 A
2022.04.26
CN 114398877 A
1.一种基于人工智能的主题提取 方法, 其特 征在于, 所述方法包括:
获取样本集, 对所述样本集执 行数据增强处 理, 得到增强样本集;
将所述增强样本集输入主题提取模型的特征提取网络, 得到所述增强样本集中每个样
本的特征向量;
将所述增强样本集划分为正样本对及负样本对, 基于所述正样本对的特征向量之间的
相似性及所述负 样本对的特 征向量之间的不相似性确定第一损失函数;
将所述增强样本集中每个样本的特征向量输入所述主题提取模型的主题提取网络, 得
到主题提取 结果, 基于所述主题提取 结果确定第二损失函数;
基于所述第 一损失函数及所述第 二损失函数确定总损失函数, 通过最小化所述总损失
函数确定所述主题提取模型的结构参数, 得到训练好的主题提取模型;
响应针对待处理文本的主题提取请求, 对所述待处理文本执行字向量转换处理, 得到
所述待处理文本中每个字符的字向量, 将所述字 向量输入所述训练好的主题提取模型, 得
到所述待处 理文本对应的目标主题。
2.如权利要求1所述的基于人工智能的主题提取方法, 其特征在于, 所述对所述样本集
执行数据增强处 理, 得到增强样本集, 包括:
对所述样本集中每个样本执行字向量转换处理, 得到所述样本集中每个样本对应的字
向量序列;
对所述字向量序列 执行字序重排处理, 得到所述样本集中每个样本对应的第 一增强样
本;
对所述字向量序列 执行特征丢弃处理, 得到所述样本集中每个样本对应的第 二增强样
本;
将所述第一增强样本及所述第二增强样本的集 合作为增强样本集。
3.如权利要求2所述的基于人工智能的主题提取方法, 其特征在于, 所述对所述字向量
序列执行字序重排处 理, 得到所述样本集中每 个样本对应的第一增强样本, 包括:
选择一个字向量序列, 确定所述选择的字向量序列中字向量的总数量;
根据预先确定的字向量的总数量与待重排字向量的数量之间的映射关系, 确定所述选
择的字向量序列中待重排字向量的第一数量;
从所述选择的字向量序列中随机选择所述第 一数量的字向量进行位置重排, 得到所述
选择的字向量序列对应的第一增强样本 。
4.如权利要求2所述的基于人工智能的主题提取方法, 其特征在于, 所述对所述字向量
序列执行特征丢弃处 理, 得到所述样本集中每 个样本对应的第二增强样本, 包括:
从所述样本集中选择一个样本, 计算所述选择的样本的语义丰富度值;
根据预先确定的语义丰富度值与待丢弃字向量的数量之间的映射关系, 确定所述选择
的样本对应的待丢弃字向量的第二数量;
对所述选择的样本对应的字向量序列中所述第 二数量的字向量进行特征丢弃, 得到所
述选择的样本对应的第二增强样本 。
5.如权利要求4所述的基于人工智能的主题提取方法, 其特征在于, 所述计算所述选择
的样本的语义丰富度值包括:
对所述选择的样本执 行分词处 理, 得到所述选择的样本对应的词语集 合;权 利 要 求 书 1/3 页
2
CN 114398877 A
2剔除所述词语集 合中预设类型的词语, 得到所述选择的样本对应的关键词集 合;
根据所述关键词集 合中关键词的数量及总字 长计算所述选择的样本的语义丰富度值。
6.如权利要求4所述的基于人工智能的主题提取方法, 其特征在于, 所述对所述选择的
样本对应的字向量序列中所述第二数量的字向量进行特征丢弃, 得到所述选择的样本对应
的第二增强样本, 包括:
随机生成数值小于等于预设数值的所述第 二数量的随机数, 将所述随机数作为待丢弃
的维度数量;
从所述选择的样本对应的字向量序列中随机 选择所述第二数量的字向量;
建立选择的字向量与待丢弃的维度 数量的对应关系, 得到每个选择的字向量对应的待
丢弃的维度数量;
从每个选择的字向量中丢弃相应维度 数量的维度 特征, 得到所述选择的样本对应的第
二增强样本 。
7.如权利要求1所述的基于人工智能的主题提取方法, 其特征在于, 所述第 一损失函数
为:
其中, k≠j, Sij为增强样本集中第i个样本与第j个样本组成的正样本对的两个样本之
间的相似度值, Sik为增强样本 集中第i个样本与第k个样本组成的负样本对的两个样本之间
的相似度值, 2M 为增强样本 集中样本的总数量, Zi为增强样本 集中第i个样本的特征向量, Zj
为增强样本集中第j个样本的特 征向量, τ 为调整参数, L 为第一损失函数的值。
8.一种基于人工智能的主题提取装置, 其特 征在于, 所述装置包括:
数据增强模块, 用于获取样本集, 对所述样本集执 行数据增强处 理, 得到增强样本集;
特征提取模块, 用于将所述增强样本集输入主题提取模型的特征提取网络, 得到所述
增强样本集中每 个样本的特 征向量;
样本划分模块, 用于将所述增强样本集划分为正样本对及负样本对, 基于所述正样本
对的特征向量之间的相似性及所述负样本对的特征向量之间的不相似性确定第一损失函
数;
函数确定模块, 用于将所述增强样本集中每个样本的特征向量输入所述主题提取模型
的主题提取网络, 得到主题提取 结果, 基于所述主题提取 结果确定第二损失函数;
模型训练模块, 用于基于所述第一损 失函数及所述第二损 失函数确定总损 失函数, 通
过最小化所述总损失函数确定所述主题提取模型的结构参数, 得到训练好的主题提取模
型;
主题提取模块, 用于响应针对待处理文本的主题提取请求, 对所述待处理文本执行字
向量转换处理, 得到所述待处理文本中每个字符的字 向量, 将所述字 向量输入所述训练好
的主题提取模型, 得到所述待处 理文本对应的目标主题。权 利 要 求 书 2/3 页
3
CN 114398877 A
3
专利 基于人工智能的主题提取方法、装置、电子设备及介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:57上传分享