专利 基于人工智能的主题提取方法、装置、电子设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210035461.7 (22)申请日 2022.01.12 (71)申请人平安普惠企业管理有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人刘欢　 (74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙) 44347 代理人高杰　于志光 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称基于人工智能的主题提取方法、装置、电子设备及介质 (57)摘要本发明涉及人工智能领域，揭露一种基于人工智能的主题提取方法，包括：对样本集执行数据增强处理，得到增强样本集；将增强样本集划分为正样本对及负样本对，基于正样本对的特征向量之间的相似性及负样本对的特征向量之间的不相似性确定第一损失函数；将增强样本集中每个样本的特征向量输入主题提取模型的主题提取网络，基于输出的主题提取结果确定第二损失函数；通过最小化第一及第二损失函数加总得到的总损失函数确定主题提取模型的结构参数；将待处理文本中每个字符的字向量输入训练好的主题提取模型，得到目标主题。本发明还提供一种基于人工智能的主题提取装置、电子设备及介质。本发明提高了主题提取准确性。权利要求书3页说明书12页附图2页 CN 114398877 A 2022.04.26 CN 114398877 A 1.一种基于人工智能的主题提取方法，其特征在于，所述方法包括：获取样本集，对所述样本集执行数据增强处理，得到增强样本集；将所述增强样本集输入主题提取模型的特征提取网络，得到所述增强样本集中每个样本的特征向量；将所述增强样本集划分为正样本对及负样本对，基于所述正样本对的特征向量之间的相似性及所述负样本对的特征向量之间的不相似性确定第一损失函数；将所述增强样本集中每个样本的特征向量输入所述主题提取模型的主题提取网络，得到主题提取结果，基于所述主题提取结果确定第二损失函数；基于所述第一损失函数及所述第二损失函数确定总损失函数，通过最小化所述总损失函数确定所述主题提取模型的结构参数，得到训练好的主题提取模型；响应针对待处理文本的主题提取请求，对所述待处理文本执行字向量转换处理，得到所述待处理文本中每个字符的字向量，将所述字向量输入所述训练好的主题提取模型，得到所述待处理文本对应的目标主题。 2.如权利要求1所述的基于人工智能的主题提取方法，其特征在于，所述对所述样本集执行数据增强处理，得到增强样本集，包括：对所述样本集中每个样本执行字向量转换处理，得到所述样本集中每个样本对应的字向量序列；对所述字向量序列执行字序重排处理，得到所述样本集中每个样本对应的第一增强样本；对所述字向量序列执行特征丢弃处理，得到所述样本集中每个样本对应的第二增强样本；将所述第一增强样本及所述第二增强样本的集合作为增强样本集。 3.如权利要求2所述的基于人工智能的主题提取方法，其特征在于，所述对所述字向量序列执行字序重排处理，得到所述样本集中每个样本对应的第一增强样本，包括：选择一个字向量序列，确定所述选择的字向量序列中字向量的总数量；根据预先确定的字向量的总数量与待重排字向量的数量之间的映射关系，确定所述选择的字向量序列中待重排字向量的第一数量；从所述选择的字向量序列中随机选择所述第一数量的字向量进行位置重排，得到所述选择的字向量序列对应的第一增强样本。 4.如权利要求2所述的基于人工智能的主题提取方法，其特征在于，所述对所述字向量序列执行特征丢弃处理，得到所述样本集中每个样本对应的第二增强样本，包括：从所述样本集中选择一个样本，计算所述选择的样本的语义丰富度值；根据预先确定的语义丰富度值与待丢弃字向量的数量之间的映射关系，确定所述选择的样本对应的待丢弃字向量的第二数量；对所述选择的样本对应的字向量序列中所述第二数量的字向量进行特征丢弃，得到所述选择的样本对应的第二增强样本。 5.如权利要求4所述的基于人工智能的主题提取方法，其特征在于，所述计算所述选择的样本的语义丰富度值包括：对所述选择的样本执行分词处理，得到所述选择的样本对应的词语集合；权　利　要　求　书 1/3 页 2 CN 114398877 A 2剔除所述词语集合中预设类型的词语，得到所述选择的样本对应的关键词集合；根据所述关键词集合中关键词的数量及总字长计算所述选择的样本的语义丰富度值。 6.如权利要求4所述的基于人工智能的主题提取方法，其特征在于，所述对所述选择的样本对应的字向量序列中所述第二数量的字向量进行特征丢弃，得到所述选择的样本对应的第二增强样本，包括：随机生成数值小于等于预设数值的所述第二数量的随机数，将所述随机数作为待丢弃的维度数量；从所述选择的样本对应的字向量序列中随机选择所述第二数量的字向量；建立选择的字向量与待丢弃的维度数量的对应关系，得到每个选择的字向量对应的待丢弃的维度数量；从每个选择的字向量中丢弃相应维度数量的维度特征，得到所述选择的样本对应的第二增强样本。 7.如权利要求1所述的基于人工智能的主题提取方法，其特征在于，所述第一损失函数为：其中， k≠j， Sij为增强样本集中第i个样本与第j个样本组成的正样本对的两个样本之间的相似度值， Sik为增强样本集中第i个样本与第k个样本组成的负样本对的两个样本之间的相似度值， 2M 为增强样本集中样本的总数量， Zi为增强样本集中第i个样本的特征向量， Zj 为增强样本集中第j个样本的特征向量， τ 为调整参数， L 为第一损失函数的值。 8.一种基于人工智能的主题提取装置，其特征在于，所述装置包括：数据增强模块，用于获取样本集，对所述样本集执行数据增强处理，得到增强样本集；特征提取模块，用于将所述增强样本集输入主题提取模型的特征提取网络，得到所述增强样本集中每个样本的特征向量；样本划分模块，用于将所述增强样本集划分为正样本对及负样本对，基于所述正样本对的特征向量之间的相似性及所述负样本对的特征向量之间的不相似性确定第一损失函数；函数确定模块，用于将所述增强样本集中每个样本的特征向量输入所述主题提取模型的主题提取网络，得到主题提取结果，基于所述主题提取结果确定第二损失函数；模型训练模块，用于基于所述第一损失函数及所述第二损失函数确定总损失函数，通过最小化所述总损失函数确定所述主题提取模型的结构参数，得到训练好的主题提取模型；主题提取模块，用于响应针对待处理文本的主题提取请求，对所述待处理文本执行字向量转换处理，得到所述待处理文本中每个字符的字向量，将所述字向量输入所述训练好的主题提取模型，得到所述待处理文本对应的目标主题。权　利　要　求　书 2/3 页 3 CN 114398877 A 3

专利 基于人工智能的主题提取方法、装置、电子设备及介质

专利基于人工智能的主题提取方法、装置、电子设备及介质