(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211014514.3
(22)申请日 2022.08.23
(65)同一申请的已公布的文献号
申请公布号 CN 115080723 A
(43)申请公布日 2022.09.20
(73)专利权人 云南师范大学
地址 650500 云南省昆明市呈贡区 聚贤街
768号
(72)发明人 徐坚 甘健侯 王俊 吴迪
周菊香 张利明 姚贤明
(74)专利代理 机构 昆明人从众知识产权代理有
限公司 5 3204
专利代理师 沈艳尼
(51)Int.Cl.
G06F 16/332(2019.01)G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 40/284(2020.01)
G06F 40/289(2020.01)
(56)对比文件
CN 101651811 A,2010.02.17
CN 103249001 A,2013.08.14
审查员 乔晋
(54)发明名称
一种阅读理解问题的自动生成方法
(57)摘要
本发明提出一种阅读理解问题的自动生成
方法, 属于自然语言处理的问题生成领域, 该方
法包括: 通过对RA CE数据集进行数据过滤和应用
一种答案标记方法进行答案单词标记, 重建了一
个QG数据集RA CE4QG; 构建一个端到端的QG模型,
QG模型中编码器的GRU以单词嵌入、 答案标记和
GAT生成的向量的拼接作为输入; 编码器的隐藏
状态通过门控自注意力机制, 得到最终的通道 ‑
答案表示, 并输入解码器; 进行问题生成模型的
解码。 本发 明针对英语教师手动生成阅读理解问
题时周期过长、 耗时费力的弊端, 采用 深度神经
网络的方法自动生成阅读理解问题。 实验结果表
明, 本发明在机器自动评价和人工评价方面都优
于传统的方法。
权利要求书2页 说明书5页 附图3页
CN 115080723 B
2022.11.11
CN 115080723 B
1.一种阅读理解问题的自动生成方法, 其特 征在于: 所述方法的具体步骤如下:
Step1: 重构用于训练问题生成模型的数据 集: 通过对RACE数据 集进行数据过滤和应用
一种答案标记方法进行答案单词标记, 重建了一个QG数据集RAC E4QG;
Step2: 进行问题生成模型的编码: 构建一个端到端的QG模型, QG模型中编码器的GRU以
单词嵌入、 答案标记和GAT生成的向量的拼接作为输入; 编 码器的隐藏状态 通过门控自注 意
力操作, 得到最终的通道 ‑答案表示, 并输入解码器;
Step3: 进行问题生成模型的解码;
所述Step1的具体步骤如下:
Step1.1: 对候选数据集RACE作适应性分析及重构; 将RACE中与问题无关的信息过滤
后, 获得RAC E4QG数据集;
Step1.2: 对数据集RACE4QG进行答案标注, 以将答案信息注入数据集形成新的RACE4QG
数据集, 训练出 更好的问题生成模型;
所述Step2的具体步骤如下:
Step2.1: 构建一个端到端的QG模型, 编码器使用GRU, 用 于更高效地训练问题生成模
型;
Step2.2: 编码器的输入为单词嵌入、 答案标记和GAT生成的向量三种向量的拼接, 使得
编码器的输出包 含文章的句子内及句子间的依赖关系信息;
Step2.3: 编码器输出的文章向量经门控自注意力机制的作用, 使该向量包含更丰富的
信息, 以利于解码阶段能生成更好的问题;
所述Step3的具体步骤如下:
Step3.1: 解码器是一个单层单向的GRU, 它利用注意机制和指针网络逐一生成问题单
词, 即出现在问题文本中的单词, 最终的单词序列即为模型生成的问题;
Step3.2: 在解码器的当前时间步预测过程中, 对于编码器的当前隐藏状态, 需将文章
中重要的单词突显出来, 具体实现机制是采用注意力机制;
Step3.3: 在解码阶段, 针对文章中的未登录词和生成的问题存在重复单词的问题, 采
用带拷贝机制的指针网络 。
2.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step1中, 利
用一种答案标记方法来标记一个段落中的答案单词, 具体为:
给定一个答案, 首先将它进行分词, 删除停用词, 得到一个单词集合X, 如果文章中某单
词属于集 合X, 则标记为A, 其 他单词标记为O。
3.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.1中,
编码器是两层 双向GRU, 隐藏层的维度为3 00维。
4.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.2中,
编码器的输入是由单词嵌入、 答案标记和GAT生成的向量拼接得到, 重点是使用了GAT来进
一步处理输入单词的嵌入向量。
5.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.3中,
编码器的输出经过门控制自注意力机制的处理后得到编 码器的最 终输出, 即文章的最终嵌
入式表示。
6.根据权利 要求2所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step3.2中,权 利 要 求 书 1/2 页
2
CN 115080723 B
2利用注意力机制来为编码器当前隐藏状态dt对文章计算注意力分布, 以突显重要的单词,
突显出的重要的单词有助于解码器生成更好的单词。权 利 要 求 书 2/2 页
3
CN 115080723 B
3
专利 一种阅读理解问题的自动生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:41:27上传分享