(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211014514.3 (22)申请日 2022.08.23 (65)同一申请的已公布的文献号 申请公布号 CN 115080723 A (43)申请公布日 2022.09.20 (73)专利权人 云南师范大学 地址 650500 云南省昆明市呈贡区 聚贤街 768号 (72)发明人 徐坚 甘健侯 王俊 吴迪  周菊香 张利明 姚贤明  (74)专利代理 机构 昆明人从众知识产权代理有 限公司 5 3204 专利代理师 沈艳尼 (51)Int.Cl. G06F 16/332(2019.01)G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (56)对比文件 CN 101651811 A,2010.02.17 CN 103249001 A,2013.08.14 审查员 乔晋 (54)发明名称 一种阅读理解问题的自动生成方法 (57)摘要 本发明提出一种阅读理解问题的自动生成 方法, 属于自然语言处理的问题生成领域, 该方 法包括: 通过对RA CE数据集进行数据过滤和应用 一种答案标记方法进行答案单词标记, 重建了一 个QG数据集RA CE4QG; 构建一个端到端的QG模型, QG模型中编码器的GRU以单词嵌入、 答案标记和 GAT生成的向量的拼接作为输入; 编码器的隐藏 状态通过门控自注意力机制, 得到最终的通道 ‑ 答案表示, 并输入解码器; 进行问题生成模型的 解码。 本发 明针对英语教师手动生成阅读理解问 题时周期过长、 耗时费力的弊端, 采用 深度神经 网络的方法自动生成阅读理解问题。 实验结果表 明, 本发明在机器自动评价和人工评价方面都优 于传统的方法。 权利要求书2页 说明书5页 附图3页 CN 115080723 B 2022.11.11 CN 115080723 B 1.一种阅读理解问题的自动生成方法, 其特 征在于: 所述方法的具体步骤如下: Step1: 重构用于训练问题生成模型的数据 集: 通过对RACE数据 集进行数据过滤和应用 一种答案标记方法进行答案单词标记, 重建了一个QG数据集RAC E4QG; Step2: 进行问题生成模型的编码: 构建一个端到端的QG模型, QG模型中编码器的GRU以 单词嵌入、 答案标记和GAT生成的向量的拼接作为输入; 编 码器的隐藏状态 通过门控自注 意 力操作, 得到最终的通道 ‑答案表示, 并输入解码器; Step3: 进行问题生成模型的解码; 所述Step1的具体步骤如下: Step1.1: 对候选数据集RACE作适应性分析及重构; 将RACE中与问题无关的信息过滤 后, 获得RAC E4QG数据集; Step1.2: 对数据集RACE4QG进行答案标注, 以将答案信息注入数据集形成新的RACE4QG 数据集, 训练出 更好的问题生成模型; 所述Step2的具体步骤如下: Step2.1: 构建一个端到端的QG模型, 编码器使用GRU, 用 于更高效地训练问题生成模 型; Step2.2: 编码器的输入为单词嵌入、 答案标记和GAT生成的向量三种向量的拼接, 使得 编码器的输出包 含文章的句子内及句子间的依赖关系信息; Step2.3: 编码器输出的文章向量经门控自注意力机制的作用, 使该向量包含更丰富的 信息, 以利于解码阶段能生成更好的问题; 所述Step3的具体步骤如下: Step3.1: 解码器是一个单层单向的GRU, 它利用注意机制和指针网络逐一生成问题单 词, 即出现在问题文本中的单词, 最终的单词序列即为模型生成的问题; Step3.2: 在解码器的当前时间步预测过程中, 对于编码器的当前隐藏状态, 需将文章 中重要的单词突显出来, 具体实现机制是采用注意力机制; Step3.3: 在解码阶段, 针对文章中的未登录词和生成的问题存在重复单词的问题, 采 用带拷贝机制的指针网络 。 2.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step1中, 利 用一种答案标记方法来标记一个段落中的答案单词, 具体为: 给定一个答案, 首先将它进行分词, 删除停用词, 得到一个单词集合X, 如果文章中某单 词属于集 合X, 则标记为A, 其 他单词标记为O。 3.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.1中, 编码器是两层 双向GRU, 隐藏层的维度为3 00维。 4.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.2中, 编码器的输入是由单词嵌入、 答案标记和GAT生成的向量拼接得到, 重点是使用了GAT来进 一步处理输入单词的嵌入向量。 5.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.3中, 编码器的输出经过门控制自注意力机制的处理后得到编 码器的最 终输出, 即文章的最终嵌 入式表示。 6.根据权利 要求2所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step3.2中,权 利 要 求 书 1/2 页 2 CN 115080723 B 2利用注意力机制来为编码器当前隐藏状态dt对文章计算注意力分布, 以突显重要的单词, 突显出的重要的单词有助于解码器生成更好的单词。权 利 要 求 书 2/2 页 3 CN 115080723 B 3

.PDF文档 专利 一种阅读理解问题的自动生成方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种阅读理解问题的自动生成方法 第 1 页 专利 一种阅读理解问题的自动生成方法 第 2 页 专利 一种阅读理解问题的自动生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:41:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。