standard download
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
问题反馈
首页
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211344142.0 (22)申请日 2022.10.31 (71)申请人 中国电子科技 集团公司第十 研究所 地址 610000 四川省成 都市金牛区茶店子 东街48号 (72)发明人 廖泓舟 代翔 戴礼灿 潘磊 张武 彭晓 胡艳霞 (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 专利代理师 周浩杰 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) (54)发明名称 文档级事件要素抽取方法、 设备及 介质 (57)摘要 本发明公开了一种文档级事件要素抽取方 法、 设备及介质, 属于文档级事件要素抽取领域, 包括如下步骤: 获取句子向量, 将各个句子向量 进行拼接, 获得初始篇章向量, 同时将句子向量 送入注意力机制网络, 获取包含句子间隐含关系 的篇章向量, 并将二者向量进行混合表征, 得到 最终的文本篇章表示; 进行事件句识别及要素抽 取、 中心句识别及事件要素以及跨句事件关系抽 取; 对中心句和事件间的相关关系进行数理统 计, 基于竞争性原则完成中心句筛选; 基于要素 补全模型, 完成中心事件要素补全, 得到完整的 文档级事件要素。 本发明具有完备性和实用型的 优点。 权利要求书2页 说明书8页 附图5页 CN 115544212 A 2022.12.30 CN 115544212 A 1.一种文档级事 件要素抽取 方法, 其特 征在于, 包括以下步骤: S1, 将篇章文本进行分句得到句子片段, 对句子片段进行字符编码、 位置编码和类型编 码, 分别得到编码向量C、 L、 S; 将编码向量C、 L、 S进行叠加得到句子级初始化 向量后送入预 训练模型, 获取句子向量Vi, 所述预训练模型包括Bert预训练模型; 将各个句子向量Vi进行 拼接, 获得初始篇章向量Vinitial; 同时将句子级初始化向量送入注意力机制网络, 对不同的 句子赋予不同的权重值, 获取包含句子间隐含关系的篇章向量Vrelation; 将Vinitial和Vrelation 进行叠加混合表征, 得到最终的文本篇 章表示Vtext; S2, 基于步骤S1的文本篇章表示Vtext, 通过序列标注方式对句子向量进行分类完成事件 句识别及要素抽取, 对篇章向量进行分类完成中心句识别及要素抽取, 同时获得事件相关 关系; S3, 对中心句和事 件间的相关 关系进行 数理统计, 基于竞争性原则完成中心句筛 选; S4, 基于要素补全 模型, 完成中心事 件要素补全, 得到 完整的文档级事 件要素。 2.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S1中, 所述对 句子片段进 行字符编 码、 位置编 码和类型编 码, 具体包括: 基于字 符表对每个句子片段中的 字符进行字符编码, 同时对字符所处的位置差异进行位置编码, 对当前 的句子再赋予一个 类型编码。 3.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S2中, 所述通 过序列标注方式对句 子向量进行分类完成事件句识别及要素抽取, 具体包括步骤: 事件句 标注采用0和1表示, 0表示非事件句, 1表示事件句, 事件要素标注采用B ‑I‑O表示, B表示要 素起始位, I表示要素其它位, O表示非要素位, 下标分别使用sub、 obj、 tim、 loc、 tri表示主 体、 客体、 时间、 地点、 触发词, 事件句识别通过对句向量中的[CLS]向量进行一个全连接线 性变化, 然后通过softmax二分类检测其是否为事件句; 要 素抽取通过对句向量中每个字 符 位向量进行一个全连接线性变化, 通过softmax二分类检测其标志 位, 最终获得当前句子是 否为事件句以及具体的事 件要素信息 。 4.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S2中, 所述对 篇章向量进 行分类完成 中心句识别及要 素抽取, 同时获得事件相关关系, 具体包括步骤: 中 心句采用0和1进行标注, 事件关系通过0, 1, 2, 3标注, 0表示无关系, 1表示顺承关系, 2表示 关联关系, 3表示因果关系, 中心句识别通过对篇章 向量中每个[CLS]向量进行一个全连接 线性变化, 通过softmax二分类 检测是否为中心句; 事件间关系抽取通过对篇章向量中[CLS ]向量两两进行全连接线性变化, 通过softmax 四分类检测其所属关系。 5.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S3中, 包括子 步骤: 遍历选择每一个中心句, 通过数理方法统计与该中心句存在隐含关系的事件句条数, 通过竞争性原则, 即隐含关系越多, 中心思想越突出, 选择包含隐含关系最多的中心句为该 篇文本的唯一中心句, 若所有中心句都不存在隐含关系或者三者关系 数量都一致, 则 默认 选择位置靠前 的中心句为唯一中心句, 若存在相同数量隐含关系 条数, 则默认按照包含因 果关系、 关联关系、 顺承关系的优先级进 行排序, 选择包含隐含关系最多的中心句为该篇文 本的唯一中心句。权 利 要 求 书 1/2 页 2 CN 115544212 A 26.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 在步骤S4中, 所述基 于要素补全 模型, 完成中心事 件要素补全, 具体包括子步骤: S41, 定义事件要素通用模板, 所述事件要素通用模板包括主体、 客体、 时间、 地点和触 发词五种通用论元角色; 构造事件实例样例, 将最终确认的中心句要素按照通用模板样例 进行要素 再配置, 同时使用中心句 相关联事 件句的要素进行缺失位置补充, 形成正负 样本; S42, 将所述 正负样本分别与原文拼接, 形成新的样本, 再进行篇 章级事件分类。 7.根据权利要求6所述的文档级事件要素抽取方法, 其特征在于, 在步骤S42中, 所述进 行篇章级事件分类, 具体包括子步骤: S421, 进行文本篇 章表示, 获得篇 章级特征; S422, 经过softmax二分类得到0和1的概率, 1表示样本合理, 要素补充正确, 0表示样本 不合理, 要 素补充错误, 其中该篇章级事件分类以文本篇章表示为基础, 通过提前构 造的正 负样本进行 预训练得到 。 8.根据权利要求1所述的文档级事件要素抽取方法, 其特征在于, 所述文本篇章表示 Vtext包括句子 本身语义和句子上 下文语义的整个文本篇 章向量表征。 9.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器中 存储有计算机程序, 当所述计算机程序被所述处理器加载并执行如权利要求 1~8任一项 所 述的方法。 10.一种可读存储介质, 其特征在于, 在可读存储介质中存储有计算机程序, 所述计算 机程序被处 理器加载并执 行如权利要求1~8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115544212 A 3
专利 文档级事件要素抽取方法、设备及介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-24 00:45:04
上传分享
举报
下载
原文档
(732.2 KB)
分享
友情链接
NY-T 2919-2016 瓜类果斑病防控技术规程.pdf
GB-T 41776-2022 法庭科学 弹药鉴定方法.pdf
GB-T 13560-2017 烧结钕铁硼永磁材料.pdf
OWASP ASVS应用安全验证标准 4.0.3 中文版.pdf
NB-T 10682-2021 数字化继电保护现场系统级检测规范.pdf
GB-T 20282-2006 信息安全技术 信息系统安全工程管理要求.pdf
GB-T 10357.7-2013 家具力学性能试验 第7部分:桌类稳定性.pdf
GB-T 42606-2023 固定式压力容器修理导则.pdf
GB-T 5585.1-2018 电工用铜、铝及其合金母线 第1部分:铜和铜合金母线.pdf
GB-T 19715.2-2005 信息技术信息技术安全管理指南第2部分:管理和规划信息技术安全.pdf
GM-T 0013-2012 可信计算 可信密码模块符合性检测规范.pdf
T-CYCKSC CYCKSC001—2023 豆腐渣.pdf
TB-T 1842.3-2016 受电弓滑板 第3部分:碳滑板.pdf
DB34-T 310016-2023 工业园区挥发性有机物光离子化传感器(PID)网格化监测技术规范 安徽省.pdf
GB-T 28827.7-2022 信息技术服务 运行维护 第7部分:成本度量规范.pdf
奇安信 2020年网络安全应急响应分析报告 2021.pdf
信通院 大模型治理蓝皮报告 2023年 ——从规则走向实践.pdf
GB-T 34290-2017 公共体育设施 室外健身设施的配置与管理.pdf
T-LPCX 01—2020 黎平香茶.pdf
T-ZSPH 04—2021 智慧建筑节能低碳运行评价标准.pdf
1
/
16
评价文档
赞助2.5元 点击下载(732.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。