standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211344142.0 (22)申请日 2022.10.31 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 廖泓舟 代翔 戴礼灿 潘磊  张武 彭晓 胡艳霞  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 周浩杰 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) (54)发明名称 文档级事件要素抽取方法、 设备及 介质 (57)摘要 本发明公开了一种文档级事件要素抽取方 法、 设备及介质, 属于文档级事件要素抽取领域, 包括如下步骤: 获取句子向量, 将各个句子向量 进行拼接, 获得初始篇章向量, 同时将句子向量 送入注意力机制网络, 获取包含句子间隐含关系 的篇章向量, 并将二者向量进行混合表征, 得到 最终的文本篇章表示; 进行事件句识别及要素抽 取、 中心句识别及事件要素以及跨句事件关系抽 取; 对中心句和事件间的相关关系进行数理统 计, 基于竞争性原则完成中心句筛选; 基于要素 补全模型, 完成中心事件要素补全, 得到完整的 文档级事件要素。 本发明具有完备性和实用型的 优点。 权利要求书2页 说明书8页 附图5页 CN 115544212 A 2022.12.30 CN 115544212 A 1.一种文档级事 件要素抽取 方法, 其特 征在于, 包括以下步骤: S1, 将篇章文本进行分句得到句子片段, 对句子片段进行字符编码、 位置编码和类型编 码, 分别得到编码向量C、 L、 S; 将编码向量C、 L、 S进行叠加得到句子级初始化 向量后送入预 训练模型, 获取句子向量Vi, 所述预训练模型包括Bert预训练模型; 将各个句子向量Vi进行 拼接, 获得初始篇章向量Vinitial; 同时将句子级初始化向量送入注意力机制网络, 对不同的 句子赋予不同的权重值, 获取包含句子间隐含关系的篇章向量Vrelation; 将Vinitial和Vrelation 进行叠加混合表征, 得到最终的文本篇 章表示Vtext; S2, 基于步骤S1的文本篇章表示Vtext, 通过序列标注方式对句子向量进行分类完成事件 句识别及要素抽取, 对篇章向量进行分类完成中心句识别及要素抽取, 同时获得事件相关 关系; S3, 对中心句和事 件间的相关 关系进行 数理统计, 基于竞争性原则完成中心句筛 选; S4, 基于要素补全 模型, 完成中心事 件要素补全, 得到 完整的文档级事 件要素。 2.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S1中, 所述对 句子片段进 行字符编 码、 位置编 码和类型编 码, 具体包括: 基于字 符表对每个句子片段中的 字符进行字符编码, 同时对字符所处的位置差异进行位置编码, 对当前 的句子再赋予一个 类型编码。 3.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S2中, 所述通 过序列标注方式对句 子向量进行分类完成事件句识别及要素抽取, 具体包括步骤: 事件句 标注采用0和1表示, 0表示非事件句, 1表示事件句, 事件要素标注采用B ‑I‑O表示, B表示要 素起始位, I表示要素其它位, O表示非要素位, 下标分别使用sub、 obj、 tim、 loc、 tri表示主 体、 客体、 时间、 地点、 触发词, 事件句识别通过对句向量中的[CLS]向量进行一个全连接线 性变化, 然后通过softmax二分类检测其是否为事件句; 要 素抽取通过对句向量中每个字 符 位向量进行一个全连接线性变化, 通过softmax二分类检测其标志 位, 最终获得当前句子是 否为事件句以及具体的事 件要素信息 。 4.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S2中, 所述对 篇章向量进 行分类完成 中心句识别及要 素抽取, 同时获得事件相关关系, 具体包括步骤: 中 心句采用0和1进行标注, 事件关系通过0, 1, 2, 3标注, 0表示无关系, 1表示顺承关系, 2表示 关联关系, 3表示因果关系, 中心句识别通过对篇章 向量中每个[CLS]向量进行一个全连接 线性变化, 通过softmax二分类 检测是否为中心句; 事件间关系抽取通过对篇章向量中[CLS ]向量两两进行全连接线性变化, 通过softmax 四分类检测其所属关系。 5.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S3中, 包括子 步骤: 遍历选择每一个中心句, 通过数理方法统计与该中心句存在隐含关系的事件句条数, 通过竞争性原则, 即隐含关系越多, 中心思想越突出, 选择包含隐含关系最多的中心句为该 篇文本的唯一中心句, 若所有中心句都不存在隐含关系或者三者关系 数量都一致, 则 默认 选择位置靠前 的中心句为唯一中心句, 若存在相同数量隐含关系 条数, 则默认按照包含因 果关系、 关联关系、 顺承关系的优先级进 行排序, 选择包含隐含关系最多的中心句为该篇文 本的唯一中心句。权 利 要 求 书 1/2 页 2 CN 115544212 A 26.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S4中, 所述基 于要素补全 模型, 完成中心事 件要素补全, 具体包括子步骤: S41, 定义事件要素通用模板, 所述事件要素通用模板包括主体、 客体、 时间、 地点和触 发词五种通用论元角色; 构造事件实例样例, 将最终确认的中心句要素按照通用模板样例 进行要素 再配置, 同时使用中心句 相关联事 件句的要素进行缺失位置补充, 形成正负 样本; S42, 将所述 正负样本分别与原文拼接, 形成新的样本, 再进行篇 章级事件分类。 7.根据权利要求6所述的文档级事件要素抽取方法, 其特征在于, 在步骤S42中, 所述进 行篇章级事件分类, 具体包括子步骤: S421, 进行文本篇 章表示, 获得篇 章级特征; S422, 经过softmax二分类得到0和1的概率, 1表示样本合理, 要素补充正确, 0表示样本 不合理, 要 素补充错误, 其中该篇章级事件分类以文本篇章表示为基础, 通过提前构 造的正 负样本进行 预训练得到 。 8.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 所述文本篇章表示 Vtext包括句子 本身语义和句子上 下文语义的整个文本篇 章向量表征。 9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器中 存储有计算机程序, 当所述计算机程序被所述处理器加载并执行如权利要求 1~8任一项 所 述的方法。 10.一种可读存储介质, 其特征在于, 在可读存储介质中存储有计算机程序, 所述计算 机程序被处 理器加载并执 行如权利要求1~8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115544212 A 3

PDF文档 专利 文档级事件要素抽取方法、设备及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档级事件要素抽取方法、设备及介质 第 1 页 专利 文档级事件要素抽取方法、设备及介质 第 2 页 专利 文档级事件要素抽取方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:45:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。