专利 文档级事件要素抽取方法、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211344142.0 (22)申请日 2022.10.31 (71)申请人中国电子科技集团公司第十研究所地址 610000 四川省成都市金牛区茶店子东街48号 (72)发明人廖泓舟　代翔　戴礼灿　潘磊　张武　彭晓　胡艳霞　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 专利代理师周浩杰 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) (54)发明名称文档级事件要素抽取方法、设备及介质 (57)摘要本发明公开了一种文档级事件要素抽取方法、设备及介质，属于文档级事件要素抽取领域，包括如下步骤：获取句子向量，将各个句子向量进行拼接，获得初始篇章向量，同时将句子向量送入注意力机制网络，获取包含句子间隐含关系的篇章向量，并将二者向量进行混合表征，得到最终的文本篇章表示；进行事件句识别及要素抽取、中心句识别及事件要素以及跨句事件关系抽取；对中心句和事件间的相关关系进行数理统计，基于竞争性原则完成中心句筛选；基于要素补全模型，完成中心事件要素补全，得到完整的文档级事件要素。本发明具有完备性和实用型的优点。权利要求书2页说明书8页附图5页 CN 115544212 A 2022.12.30 CN 115544212 A 1.一种文档级事件要素抽取方法，其特征在于，包括以下步骤： S1，将篇章文本进行分句得到句子片段，对句子片段进行字符编码、位置编码和类型编码，分别得到编码向量C、 L、 S；将编码向量C、 L、 S进行叠加得到句子级初始化向量后送入预训练模型，获取句子向量Vi，所述预训练模型包括Bert预训练模型；将各个句子向量Vi进行拼接，获得初始篇章向量Vinitial；同时将句子级初始化向量送入注意力机制网络，对不同的句子赋予不同的权重值，获取包含句子间隐含关系的篇章向量Vrelation；将Vinitial和Vrelation 进行叠加混合表征，得到最终的文本篇章表示Vtext； S2，基于步骤S1的文本篇章表示Vtext，通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取，对篇章向量进行分类完成中心句识别及要素抽取，同时获得事件相关关系； S3，对中心句和事件间的相关关系进行数理统计，基于竞争性原则完成中心句筛选； S4，基于要素补全模型，完成中心事件要素补全，得到完整的文档级事件要素。 2.根据权利要求1所述的文档级事件要素抽取方法，其特征在于，在步骤S1中，所述对句子片段进行字符编码、位置编码和类型编码，具体包括：基于字符表对每个句子片段中的字符进行字符编码，同时对字符所处的位置差异进行位置编码，对当前的句子再赋予一个类型编码。 3.根据权利要求1所述的文档级事件要素抽取方法，其特征在于，在步骤S2中，所述通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取，具体包括步骤：事件句标注采用0和1表示， 0表示非事件句， 1表示事件句，事件要素标注采用B ‑I‑O表示， B表示要素起始位， I表示要素其它位， O表示非要素位，下标分别使用sub、 obj、 tim、 loc、 tri表示主体、客体、时间、地点、触发词，事件句识别通过对句向量中的[CLS]向量进行一个全连接线性变化，然后通过softmax二分类检测其是否为事件句；要素抽取通过对句向量中每个字符位向量进行一个全连接线性变化，通过softmax二分类检测其标志位，最终获得当前句子是否为事件句以及具体的事件要素信息。 4.根据权利要求1所述的文档级事件要素抽取方法，其特征在于，在步骤S2中，所述对篇章向量进行分类完成中心句识别及要素抽取，同时获得事件相关关系，具体包括步骤：中心句采用0和1进行标注，事件关系通过0， 1， 2， 3标注， 0表示无关系， 1表示顺承关系， 2表示关联关系， 3表示因果关系，中心句识别通过对篇章向量中每个[CLS]向量进行一个全连接线性变化，通过softmax二分类检测是否为中心句；事件间关系抽取通过对篇章向量中[CLS ]向量两两进行全连接线性变化，通过softmax 四分类检测其所属关系。 5.根据权利要求1所述的文档级事件要素抽取方法，其特征在于，在步骤S3中，包括子步骤：遍历选择每一个中心句，通过数理方法统计与该中心句存在隐含关系的事件句条数，通过竞争性原则，即隐含关系越多，中心思想越突出，选择包含隐含关系最多的中心句为该篇文本的唯一中心句，若所有中心句都不存在隐含关系或者三者关系数量都一致，则默认选择位置靠前的中心句为唯一中心句，若存在相同数量隐含关系条数，则默认按照包含因果关系、关联关系、顺承关系的优先级进行排序，选择包含隐含关系最多的中心句为该篇文本的唯一中心句。权　利　要　求　书 1/2 页 2 CN 115544212 A 26.根据权利要求1所述的文档级事件要素抽取方法，其特征在于，在步骤S4中，所述基于要素补全模型，完成中心事件要素补全，具体包括子步骤： S41，定义事件要素通用模板，所述事件要素通用模板包括主体、客体、时间、地点和触发词五种通用论元角色；构造事件实例样例，将最终确认的中心句要素按照通用模板样例进行要素再配置，同时使用中心句相关联事件句的要素进行缺失位置补充，形成正负样本； S42，将所述正负样本分别与原文拼接，形成新的样本，再进行篇章级事件分类。 7.根据权利要求6所述的文档级事件要素抽取方法，其特征在于，在步骤S42中，所述进行篇章级事件分类，具体包括子步骤： S421，进行文本篇章表示，获得篇章级特征； S422，经过softmax二分类得到0和1的概率， 1表示样本合理，要素补充正确， 0表示样本不合理，要素补充错误，其中该篇章级事件分类以文本篇章表示为基础，通过提前构造的正负样本进行预训练得到。 8.根据权利要求1所述的文档级事件要素抽取方法，其特征在于，所述文本篇章表示 Vtext包括句子本身语义和句子上下文语义的整个文本篇章向量表征。 9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载并执行如权利要求 1～8任一项所述的方法。 10.一种可读存储介质，其特征在于，在可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行如权利要求1～8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115544212 A 3

专利 文档级事件要素抽取方法、设备及介质

专利文档级事件要素抽取方法、设备及介质