standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211014514.3 (22)申请日 2022.08.23 (65)同一申请的已公布的文献号 申请公布号 CN 115080723 A (43)申请公布日 2022.09.20 (73)专利权人 云南师范大学 地址 650500 云南省昆明市呈贡区 聚贤街 768号 (72)发明人 徐坚 甘健侯 王俊 吴迪 周菊香 张利明 姚贤明 (74)专利代理 机构 昆明人从众知识产权代理有 限公司 5 3204 专利代理师 沈艳尼 (51)Int.Cl. G06F 16/332(2019.01)G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (56)对比文件 CN 101651811 A,2010.02.17 CN 103249001 A,2013.08.14 审查员 乔晋 (54)发明名称 一种阅读理解问题的自动生成方法 (57)摘要 本发明提出一种阅读理解问题的自动生成 方法, 属于自然语言处理的问题生成领域, 该方 法包括: 通过对RA CE数据集进行数据过滤和应用 一种答案标记方法进行答案单词标记, 重建了一 个QG数据集RA CE4QG; 构建一个端到端的QG模型, QG模型中编码器的GRU以单词嵌入、 答案标记和 GAT生成的向量的拼接作为输入; 编码器的隐藏 状态通过门控自注意力机制, 得到最终的通道 ‑ 答案表示, 并输入解码器; 进行问题生成模型的 解码。 本发 明针对英语教师手动生成阅读理解问 题时周期过长、 耗时费力的弊端, 采用 深度神经 网络的方法自动生成阅读理解问题。 实验结果表 明, 本发明在机器自动评价和人工评价方面都优 于传统的方法。 权利要求书2页 说明书5页 附图3页 CN 115080723 B 2022.11.11 CN 115080723 B 1.一种阅读理解问题的自动生成方法, 其特 征在于: 所述方法的具体步骤如下: Step1: 重构用于训练问题生成模型的数据 集: 通过对RACE数据 集进行数据过滤和应用 一种答案标记方法进行答案单词标记, 重建了一个QG数据集RAC E4QG; Step2: 进行问题生成模型的编码: 构建一个端到端的QG模型, QG模型中编码器的GRU以 单词嵌入、 答案标记和GAT生成的向量的拼接作为输入; 编 码器的隐藏状态 通过门控自注 意 力操作, 得到最终的通道 ‑答案表示, 并输入解码器; Step3: 进行问题生成模型的解码; 所述Step1的具体步骤如下: Step1.1: 对候选数据集RACE作适应性分析及重构; 将RACE中与问题无关的信息过滤 后, 获得RAC E4QG数据集; Step1.2: 对数据集RACE4QG进行答案标注, 以将答案信息注入数据集形成新的RACE4QG 数据集, 训练出 更好的问题生成模型; 所述Step2的具体步骤如下: Step2.1: 构建一个端到端的QG模型, 编码器使用GRU, 用 于更高效地训练问题生成模 型; Step2.2: 编码器的输入为单词嵌入、 答案标记和GAT生成的向量三种向量的拼接, 使得 编码器的输出包 含文章的句子内及句子间的依赖关系信息; Step2.3: 编码器输出的文章向量经门控自注意力机制的作用, 使该向量包含更丰富的 信息, 以利于解码阶段能生成更好的问题; 所述Step3的具体步骤如下: Step3.1: 解码器是一个单层单向的GRU, 它利用注意机制和指针网络逐一生成问题单 词, 即出现在问题文本中的单词, 最终的单词序列即为模型生成的问题; Step3.2: 在解码器的当前时间步预测过程中, 对于编码器的当前隐藏状态, 需将文章 中重要的单词突显出来, 具体实现机制是采用注意力机制; Step3.3: 在解码阶段, 针对文章中的未登录词和生成的问题存在重复单词的问题, 采 用带拷贝机制的指针网络 。 2.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step1中, 利 用一种答案标记方法来标记一个段落中的答案单词, 具体为: 给定一个答案, 首先将它进行分词, 删除停用词, 得到一个单词集合X, 如果文章中某单 词属于集 合X, 则标记为A, 其 他单词标记为O。 3.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.1中, 编码器是两层 双向GRU, 隐藏层的维度为3 00维。 4.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.2中, 编码器的输入是由单词嵌入、 答案标记和GAT生成的向量拼接得到, 重点是使用了GAT来进 一步处理输入单词的嵌入向量。 5.根据权利 要求1所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step2.3中, 编码器的输出经过门控制自注意力机制的处理后得到编 码器的最 终输出, 即文章的最终嵌 入式表示。 6.根据权利 要求2所述的阅读理解问题的自动生成方法, 其特征在于: 所述Step3.2中,权 利 要 求 书 1/2 页 2 CN 115080723 B 2利用注意力机制来为编码器当前隐藏状态dt对文章计算注意力分布, 以突显重要的单词, 突显出的重要的单词有助于解码器生成更好的单词。权 利 要 求 书 2/2 页 3 CN 115080723 B 3
专利 一种阅读理解问题的自动生成方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-17 23:41:27
上传分享
举报
下载
原文档
(550.7 KB)
分享
友情链接
GB-T 32040-2015 石化企业节能量计算方法.pdf
GB-T 41806-2022 信息安全技术 基因识别数据安全要求.pdf
GB-T 15045-2013 脂肪烷基二甲基叔胺.pdf
cnnic 2012年中国网络购物市场研究报告.pdf
青海省节能监察办法.pdf
DB11-T 051-2015 电机系统节能监测 北京市.pdf
GB-T 42445-2023 工业自动化和控制系统安全 IACS环境下的补丁管理 IEC TR 62443-2-3-2015.pdf
T-SHZSAQS 00194—2023 库尔勒香梨密植微灌水肥高效管理技术规程.pdf
GB-T 19668.4-2017 信息技术服务监理第4部分信息安全监理规范.pdf
GB-T 22309-2023 道路车辆 制动衬片 盘式制动块总成和鼓式制动蹄总成剪切强度试验方法.pdf
GB-T 20281-2020 信息安全技术 防火墙安全技术要求和测试评价方法.pdf
DB4205-T 63-2019 磷石膏及其综合利用产品质量标准 宜昌市.pdf
GB-T 24158-2018 电动摩托车和电动轻便摩托车通用技术条件.pdf
GB-T 40224-2021 雨水渗透、调蓄、储存用塑料模块.pdf
T-ACEF 060—2023 塑料包装替代材料 碳减排量核算准则.pdf
腾讯安全 等保2.0体系互联网合规实践白皮书 2020.pdf
阿里巴巴 毕玄 从自动化到智能化的阿里运维体系.pdf
GB-T 13869-2017 用电安全导则.pdf
GB-T 34079.1-2021 基于云计算的电子政务公共平台服务规范 第1部分:服务分类与编码.pdf
GB-T 29453-2012 煤炭企业能源计量器具配备和管理要求.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(550.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。