文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211014514.3 (22)申请日 2022.08.23 (65)同一申请的已公布的文献号 申请公布号 CN 115080723 A (43)申请公布日 2022.09.20 (73)专利权人 云南师范大学 地址 650500 云南省昆明市呈贡区 聚贤街 768号 (72)发明人 徐坚 甘健侯 王俊 吴迪 周菊香 张利明 姚贤明 (74)专利代理 机构 昆明人从众知识产权代理有 限公司 5 3204 专利代理师 沈艳尼 (51)Int.Cl. G06F 16/332(2019.01)G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (56)对比文件 CN 101651811 A,2010.02.17 CN 103249001 A,2013.08.14 审查员 乔晋 (54)发明名称 一种阅读理解问题的自动生成方法 (57)摘要 本发明提出一种阅读理解问题的自动生成 方法, 属于自然语言处理的问题生成领域, 该方 法包括: 通过对RA CE数据集进行数据过滤和应用 一种答案标记方法进行答案单词标记, 重建了一 个QG数据集RA CE4QG; 构建一个端到端的QG模型, QG模型中编码器的GRU以单词嵌入、 答案标记和 GAT生成的向量的拼接作为输入; 编码器的隐藏 状态通过门控自注意力机制, 得到最终的通道 ‑ 答案表示, 并输入解码器; 进行问题生成模型的 解码。 本发 明针对英语教师手动生成阅读理解问 题时周期过长、 耗时费力的弊端, 采用 深度神经 网络的方法自动生成阅读理解问题。 实验结果表 明, 本发明在机器自动评价和人工评价方面都优 于传统的方法。 权利要求书2页 说明书5页 附图3页 CN 115080723 B 2022.11.11 CN 115080723 B 1.一种阅读理解问题的自动生成方法, 其特 征在于: 所述方法的具体步骤如下: Step1: 重构用于训练问题生成模型的数据 集: 通过对RACE数据 集进行数据过滤和应用 一种答案标记方法进行答案单词标记, 重建了一个QG数据集RAC E4QG; Step2: 进行问题生成模型的编码: 构建一个端到端的QG模型, QG模型中编码器的GRU以 单词嵌入、 答案标记和GAT生成的向量的拼接作为输入; 编 码器的隐藏状态 通过门控自注 意 力操作, 得到最终的通道 ‑答案表示, 并输入解码器; Step3: 进行问题生成模型的解码; 所述Step1的具体步骤如下: Step1.1: 对候选数据集RACE作适应性分析及重构; 将RACE中与问题无关的信息过滤 后, 获得RAC E4QG数据集; Step1.2: 对数据集RACE4QG进行答案标注, 以将答案信息注入数据集形成新的RACE4QG 数据集, 训练出 更好的问题生成模型; 所述Step2的具体步骤如下: Step2.1: 构建一个端到端的QG模型, 编码器使用GRU, 用 于更高效地训练问题生成模 型; Step2.2: 编码器的输入为单词嵌入、 答案标记和GAT生成的向量三种向量的拼接, 使得 编码器的输出包 含文章的句子内及句子间的依赖关系信息; Step2.3: 编码器输出的文章向量经门控自注意力机制的作用, 使该向量包含更丰富的 信息, 以利于解码阶段能生成更好的问题; 所述Step3的具体步骤如下: Step3.1: 解码器是一个单层单向的GRU, 它利用注意机制和指针网络逐一生成问题单 词, 即出现在问题文本中的单词, 最终的单词序列即为模型生成的问题; Step3.2: 在解码器的当前时间步预测过程中, 对于编码器的当前隐藏状态, 需将文章 中重要的单词突显出来, 具体实现机制是采用注意力机制; Step3.3: 在解码阶段, 针对文章中的未登录词和生成的问题存在重复单词的问题, 采 用带拷贝机制的指针网络 。 2.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step1中, 利 用一种答案标记方法来标记一个段落中的答案单词, 具体为: 给定一个答案, 首先将它进行分词, 删除停用词, 得到一个单词集合X, 如果文章中某单 词属于集 合X, 则标记为A, 其 他单词标记为O。 3.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.1中, 编码器是两层 双向GRU, 隐藏层的维度为3 00维。 4.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.2中, 编码器的输入是由单词嵌入、 答案标记和GAT生成的向量拼接得到, 重点是使用了GAT来进 一步处理输入单词的嵌入向量。 5.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.3中, 编码器的输出经过门控制自注意力机制的处理后得到编 码器的最 终输出, 即文章的最终嵌 入式表示。 6.根据权利 要求2所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step3.2中,权 利 要 求 书 1/2 页 2 CN 115080723 B 2利用注意力机制来为编码器当前隐藏状态dt对文章计算注意力分布, 以突显重要的单词, 突显出的重要的单词有助于解码器生成更好的单词。权 利 要 求 书 2/2 页 3 CN 115080723 B 3
专利 一种阅读理解问题的自动生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-17 23:41:27
上传分享
举报
下载
原文档
(550.7 KB)
分享
友情链接
蚂蚁集团 安全平行切面白皮书 2021.pdf
GB-T 4423-2020 铜及铜合金拉制棒.pdf
GB-T 28123-2011 工业氦.pdf
GB-T 20020-2013 气相二氧化硅.pdf
GB-T 34968-2017 地下水超采区评价导则.pdf
工信部 网络产品安全漏洞管理规定 2021.pdf
DB45-T 2048-2019 微型消防站建设管理规范 广西壮族自治区.pdf
GB-T 37024-2018 信息安全技术 物联网感知层网关安全技术要求.pdf
T-JSJTQX 13—2020 桥梁体外预应力束转向器制作及质量要求.pdf
T-ZZB 2938—2022 医用氧气瓶.pdf
GB-T 24919-2010 工业阀门 安装使用维护 一般要求.pdf
GB-T 17714-2022 啤酒桶质量通则.pdf
GB-T 28827.6-2019 信息技术服务 运行维护 第6部分:应用系统服务要求.pdf
ISO 13119 2022 Health informatics — Clinical knowledge resources — Metadata.pdf
GB-T 34590.1-2022 道路车辆 功能安全 第1部分:术语.pdf
T-SHPPA 025—2024 切向流过滤膜及膜包-装置生产质量管理指南.pdf
CISSP权威指南(AIO)第8版 中文.pdf
T-CIATCM 016—2019 针灸科电子病历基本数据集.pdf
淮南市科技创新促进条例.pdf
GB 15083-2019 汽车座椅、座椅固定装置及头枕强度要求和试验方法.pdf
1
/
3
11
评价文档
赞助2元 点击下载(550.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。