(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210038607.3
(22)申请日 2022.01.13
(71)申请人 北京快确信息科技有限公司
地址 100000 北京市西城区阜成门外大街
31号4层411D
(72)发明人 林远平 甘伟超 喻广博 邹鸿岳
周靖宇
(74)专利代理 机构 广东良马律师事务所 4 4395
代理人 邓天祥
(51)Int.Cl.
G06F 40/126(2020.01)
G06F 40/30(2020.01)
G06F 40/279(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于融合预训练的文本抽取方法、 系统及介
质
(57)摘要
本发明公开了基于融合预训练的文本抽取
方法、 系统及介质, 方法包括: 获取待抽取文本;
通过预训练模型对所述待抽取文本进行预训练
编码, 得到相应的字符向量; 选取所述字符向量
中的至少部分对邻近文本进行语义提取, 并拼接
得到语义特征向量; 对所述语义特征向量进行特
征选择并融合得到有效词语特征向量; 对所述有
效词语特征向量进行分流解码, 分别得到词语分
割结果和实体识别结果。 通过基于预训练模型框
架进行编码得到字符向量, 并且融合字符向量中
的至少部分进行邻近文本的语义提取以学习文
本语义信息, 增强语义的学习能力, 使得最终得
到的词语分割结果能有效避免边界模糊的问题,
提高文本提取的准确性。
权利要求书2页 说明书8页 附图3页
CN 114398855 A
2022.04.26
CN 114398855 A
1.一种基于融合预训练的文本抽取 方法, 其特 征在于, 包括:
获取待抽取文本;
通过预训练模型对所述待抽取文本进行 预训练编码, 得到相应的字符向量;
选取所述字符向量中的至少部分对邻近文本进行语义提取, 并拼接得到语义特征向
量;
对所述语义特 征向量进行 特征选择并融合得到有效词语特 征向量;
对所述有效词语特 征向量进行分流 解码, 分别得到词语分割结果和实体识别结果。
2.根据权利要求1所述的基于融合预训练的文本抽取方法, 其特征在于, 所述通过预训
练模型对所述待抽取文本进行 预训练编码, 得到相应的字符向量之前, 所述方法还 包括:
对所述预训练模型进行对抗训练。
3.根据权利要求2所述的基于融合预训练的文本抽取方法, 其特征在于, 所述对所述预
训练模型进行对抗训练, 包括:
构造对抗样本, 并将所述对抗样本加入到所述预训练模型的输入嵌入层中进行扰动;
根据所述对抗样本对所述预训练模型进行对抗训练以更新模型参数, 直到更新次数达
到预设次数则对抗训练结束。
4.根据权利要求3所述的基于融合预训练的文本抽取方法, 其特征在于, 所述构造对抗
样本, 具体包括:
根据以下公式进行计算得到对抗样本,
其中, gadv表示对抗训练时预训练模型的梯度, X表示输入信息, y表示标签信息, δt‑1表
示t‑1时刻的扰动大小, fθ表示预训练模型的输出结果, L表示损失函数,
表示对损失函
数中的扰动求梯度, α 表示学习率, ‖ ‖F是Frobenius范数, gt表示t时刻 预训练模型的梯度,
∏为累乘符号。
5.根据权利要求4所述的基于融合预训练的文本抽取方法, 其特征在于, 所述根据 所述
对抗样本对所述预训练模型进 行对抗训练以更新模型参数, 直到更新次数达到预设次数则
对抗训练结束, 具体包括:
在 根 据 所 述 对 抗 样 本 对 所 述 预 训 练 模 型 进 行 扰 动 后 ,根 据 公 式
累加参数θ的梯度, 其中, K表示进
行求梯度上升的次数, E表示数学期望, gt‑1为t‑1时刻预训练模型的梯度,
表示对损
失函数中的参数求梯度;
根据累加后的梯度对所述预训练模型进行参数更新, 直到更新 次数达到预设次数时则
对抗训练结束。权 利 要 求 书 1/2 页
2
CN 114398855 A
26.根据权利要求1所述的基于融合预训练的文本抽取方法, 其特征在于, 所述选取所述
字符向量中的至少部分对邻近文本进行语义 提取, 并拼接得到语义特 征向量, 包括:
选取所述预训练模型中若干个预设位置的编码层作为目标编码层;
将所述目标编码层的输出结果分别输入至一一对应连接的文本分类模型中进行邻近
文本的语义提取, 所述文本分类模型 的数量与目标编码层相同, 且各个文本分类模型 的内
核大小不相同;
对每个文本分类模型的提取 结果进行融合 拼接, 得到所述语义特 征向量。
7.根据权利要求6所述的基于融合预训练的文本抽取方法, 其特征在于, 所述对所述语
义特征向量进行 特征选择并融合得到有效词语特 征向量, 具体包括:
通过全连接层对所述语义特征向量进行特征选择并融合得到有效词语特征向量, 其中
所述全连接层的输入为Finput、 输出为Foutput,
Finput=concat(E1,E2,Ei…,En),
Foutput=softmax(Finput)=softmax(c oncat(E1,E2,Ei…,En)), 其中, Ei为第i个目标编码
层的输出 结果, n为目标编码层的数量。
8.根据权利要求1所述的基于融合预训练的文本抽取方法, 其特征在于, 所述文本分类
模型的内核大小为3 ‑7。
9.一种基于 融合预训练 的文本抽取系统, 其特征在于, 所述系统包括至少一个处理器;
以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑8任一项所述的基于融合预训练
的文本抽取 方法。
10.一种非易失性计算机可读存储介质, 其特征在于, 所述非易失性计算机可读存储介
质存储有计算机可执行指令, 该计算机可执行指令被一个或多个处理器执行时, 可使得所
述一个或多个处 理器执行权利要求1 ‑8任一项所述的基于融合预训练的文本抽取 方法。权 利 要 求 书 2/2 页
3
CN 114398855 A
3
专利 基于融合预训练的文本抽取方法、系统及介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:56上传分享