专利 基于融合预训练的文本抽取方法、系统及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210038607.3 (22)申请日 2022.01.13 (71)申请人北京快确信息科技有限公司地址 100000 北京市西城区阜成门外大街 31号4层411D (72)发明人林远平　甘伟超　喻广博　邹鸿岳　周靖宇　 (74)专利代理机构广东良马律师事务所 4 4395 代理人邓天祥 (51)Int.Cl. G06F 40/126(2020.01) G06F 40/30(2020.01) G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于融合预训练的文本抽取方法、系统及介质 (57)摘要本发明公开了基于融合预训练的文本抽取方法、系统及介质，方法包括：获取待抽取文本；通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量；选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量；对所述语义特征向量进行特征选择并融合得到有效词语特征向量；对所述有效词语特征向量进行分流解码，分别得到词语分割结果和实体识别结果。通过基于预训练模型框架进行编码得到字符向量，并且融合字符向量中的至少部分进行邻近文本的语义提取以学习文本语义信息，增强语义的学习能力，使得最终得到的词语分割结果能有效避免边界模糊的问题，提高文本提取的准确性。权利要求书2页说明书8页附图3页 CN 114398855 A 2022.04.26 CN 114398855 A 1.一种基于融合预训练的文本抽取方法，其特征在于，包括：获取待抽取文本；通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量；选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量；对所述语义特征向量进行特征选择并融合得到有效词语特征向量；对所述有效词语特征向量进行分流解码，分别得到词语分割结果和实体识别结果。 2.根据权利要求1所述的基于融合预训练的文本抽取方法，其特征在于，所述通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量之前，所述方法还包括：对所述预训练模型进行对抗训练。 3.根据权利要求2所述的基于融合预训练的文本抽取方法，其特征在于，所述对所述预训练模型进行对抗训练，包括：构造对抗样本，并将所述对抗样本加入到所述预训练模型的输入嵌入层中进行扰动；根据所述对抗样本对所述预训练模型进行对抗训练以更新模型参数，直到更新次数达到预设次数则对抗训练结束。 4.根据权利要求3所述的基于融合预训练的文本抽取方法，其特征在于，所述构造对抗样本，具体包括：根据以下公式进行计算得到对抗样本，其中， gadv表示对抗训练时预训练模型的梯度， X表示输入信息， y表示标签信息， δt‑1表示t‑1时刻的扰动大小， fθ表示预训练模型的输出结果， L表示损失函数，表示对损失函数中的扰动求梯度， α 表示学习率， ‖ ‖F是Frobenius范数， gt表示t时刻预训练模型的梯度， ∏为累乘符号。 5.根据权利要求4所述的基于融合预训练的文本抽取方法，其特征在于，所述根据所述对抗样本对所述预训练模型进行对抗训练以更新模型参数，直到更新次数达到预设次数则对抗训练结束，具体包括：在根据所述对抗样本对所述预训练模型进行扰动后，根据公式累加参数θ的梯度，其中， K表示进行求梯度上升的次数， E表示数学期望， gt‑1为t‑1时刻预训练模型的梯度，表示对损失函数中的参数求梯度；根据累加后的梯度对所述预训练模型进行参数更新，直到更新次数达到预设次数时则对抗训练结束。权　利　要　求　书 1/2 页 2 CN 114398855 A 26.根据权利要求1所述的基于融合预训练的文本抽取方法，其特征在于，所述选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量，包括：选取所述预训练模型中若干个预设位置的编码层作为目标编码层；将所述目标编码层的输出结果分别输入至一一对应连接的文本分类模型中进行邻近文本的语义提取，所述文本分类模型的数量与目标编码层相同，且各个文本分类模型的内核大小不相同；对每个文本分类模型的提取结果进行融合拼接，得到所述语义特征向量。 7.根据权利要求6所述的基于融合预训练的文本抽取方法，其特征在于，所述对所述语义特征向量进行特征选择并融合得到有效词语特征向量，具体包括：通过全连接层对所述语义特征向量进行特征选择并融合得到有效词语特征向量，其中所述全连接层的输入为Finput、输出为Foutput， Finput＝concat(E1,E2,Ei…,En)， Foutput＝softmax(Finput)＝softmax(c oncat(E1,E2,Ei…,En))，其中， Ei为第i个目标编码层的输出结果， n为目标编码层的数量。 8.根据权利要求1所述的基于融合预训练的文本抽取方法，其特征在于，所述文本分类模型的内核大小为3 ‑7。 9.一种基于融合预训练的文本抽取系统，其特征在于，所述系统包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑8任一项所述的基于融合预训练的文本抽取方法。 10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1 ‑8任一项所述的基于融合预训练的文本抽取方法。权　利　要　求　书 2/2 页 3 CN 114398855 A 3

专利 基于融合预训练的文本抽取方法、系统及介质

专利基于融合预训练的文本抽取方法、系统及介质