standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210031904.5 (22)申请日 2022.01.12 (71)申请人 南京题麦壳斯信息科技有限公司 地址 210000 江苏省南京市 鼓楼区汉中门 大街301号南京国际服务外包大厦01 栋AB座 (72)发明人 陈件 潘丽婷 张井 (74)专利代理 机构 南京业腾知识产权代理事务 所(特殊普通 合伙) 32321 代理人 缪友益 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06V 30/148(2022.01) (54)发明名称 一种无监督的英文写作切题评估方法及其 系统和设备 (57)摘要 本发明公开一种无监督的英文写作切题评 估方法, 包括如下步骤: 人工输入参考关键词, 或 通过Text Rank算法从输入的范文中获取参考 关 键词; 通过Text Rank算法从待评估作文中获取 作文关键词; 使用BERT预训练模型将参考关键词 和作文关键词均转为词向量; 利用余弦相似度计 算参考关键词和作文关键词间的相似度; 获得参 考关键词与作文关键词间最大相似度, 计算平均 相似度, 映射成切题分数。 通过本发明的方法无 需标注训练语料, 高效快捷; 同时相较于仅凭文 本是否存在关键词判断切题与否的方法, 本方法 通过双向提取关键词的方式有效地避免误判和 漏判, 并通过计算计算语义相似度的方式, 进一 步确保切题评价的准确度。 权利要求书2页 说明书4页 附图1页 CN 114357142 A 2022.04.15 CN 114357142 A 1.一种无监 督的英文 写作切题评估方法, 其特 征在于, 包括如下步骤: S1、 人工输入参考关键词, 或通过Text Rank算法从输入的范文中获取参考关键词; 通 过Text Rank算法从待评估作文中获取作文关键词; S2、 使用BERT预训练模型将参 考关键词和作文关键词均转 为词向量; S3、 利用余弦相似度计算 参考关键词和作文关键词间的相似度; S4、 获得参 考关键词与 作文关键词间最大相似度, 计算平均相似度, 映射成切题分数。 2.根据权利要求1所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S1中通过 Text Rank算法获取参 考关键词或作文关键词的具体方法为: S11、 对用户提供的范文或待评估作文进行分词, 剔除停用词, 建立基于范文或待评估 作文的词表; S12、 以单词作为节点, 单词之间的共现频次作为边权重, 建立有向图, 设置共现窗口长 度为5个单词, 对于任意连续5个单词, 这5个单词之间视为共现; S13、 初始化单词节点分数为 N为词表大小, 根据公式(1)更新每个单词节点的分数, 直至分数收敛; 其中, scorei是第i个单词节点分数, scorej是第j个单词节点分数; IN(i)为节点i的所 有入边的节点集合, 节点i的入边是指边从其他节点出发, 指向节点i; 节点j从属 于IN(i); wji为节点j到节点i的入边权重, 即共现频次; OUT(j)是节点j的所有出边的节点集合, 节点j 的出边是指从节点j出发, 指向其他节点, 节点k从属于OUT(j), wjk为节点j到节点k的出边权 重; d是平 滑系数, 取0.8, 用于避免分数为0; S14、 对所有单词节点根据分数进行降序排列, 选取前若干个单词作为关键词, 如果关 键词相邻, 则合并为关键词组。 3.根据权利要求2所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S2中将参 考关键词或作文关键词均转 为词向量的方法为: 利用BERT的预训练模型, 将参考关键词或作文关键词进行词嵌入操作, 每个关键词映 射成768维的词向量vi, 对一个关键词的M个词向量进行取均值的池化操作, 最终得到一个 768维的关键词向量V, 计算公式如公式(2), 4.根据权利要求3所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S2获得n 个参考关键词向量和m个作文关键词向量, n和m为超参数, 默认 为3和10, 也可由用户自行设 定, 使用余弦距离计算参考关键词和作文关键词的相 似度, 得到n行m列的相 似度矩阵S, 如 公式(3), 5.根据权利要求4所述的无监督的英文写作切题评估方法, 其特征在于, 步骤S4的具体权 利 要 求 书 1/2 页 2 CN 114357142 A 2方法为: 以n个参考关键词为标准, 在 m个作文关键词中, 找到n个与参考关键词相似度最大的作 文关键词, 对n个最大相似度取均值, 将平均相似度映射到 0至100的切题分数, 如公式(4), 6.一种无监 督的英文 写作切题评估系统, 其特 征在于, 包括: 关键词获取模块, 设置文本输入接口和OCR扫描接口, 通过文本输入或OCR识别的方式 获取范文和待评估作文, 并通过Text Rank算法获取参 考关键词和作文关键词; 关键词相似度对比模块, 接收关键词获取模块发送的参考关键词和作文关键词数据, 并进行处理转换为参考关键词向量和作文关键词向量, 计算参考关键词和作文关键词间的 相似度, 形成相似度矩阵; 输出打分模块, 接收关键词相似度对比模块输入的相似度矩阵, 获得参考关键词与作 文关键词的最大相似度, 计算平均相似度, 并映射成切题分数后输出至 显示设备。 7.一种无监督的英文写作切题评估设备, 该设备的计算机搭载权利要求6所述的无监 督的英文 写作切题评估系统。权 利 要 求 书 2/2 页 3 CN 114357142 A 3
专利 一种无监督的英文写作切题评估方法及其系统和设备
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:33:57
上传分享
举报
下载
原文档
(451.1 KB)
分享
友情链接
GB-T 18771.1-2015 烟草术语 第1部分: 烟草类型与烟叶生产.pdf
GB-T 30064-2013 金属材料 钢构件断裂评估中裂纹尖端张开位移(CTOD)断裂韧度的拘束损失修正方法.pdf
GB-T 20274.3-2008 信息安全技术 信息系统安全保障评估框架 第3部分:管理保障.pdf
GB-T 33910-2017 汽车用铝及铝合金挤压型材.pdf
YD-T 3813-2020 基础电信企业数据分类分级方法.pdf
GB-T 12763.8-2007 海洋调查规范 第8部分 海洋地质地球物理调查.pdf
SL-T 450—2021 堰塞湖风险等级划分与应急处置技术规范.pdf
T-CAAMTB 64—2022 汽车解耦式电子助力制动系统总成性能要求及台架试验方法.pdf
DB13-T 5134-2019 回转式翻车机系统节能技术规范 河北省.pdf
信通院 车联网白皮书 2023年.pdf
GB-T 42453-2023 信息安全技术 网络安全态势感知通用技术要求.pdf
等级保护 渗透测试报告-样例.doc
SL 285-2020 水利水电工程进水口设计规范.pdf
LY-T 1738-2020 实木复合地板用胶合板.pdf
GB-T 14264-2009 半导体材料术语.pdf
GB-T 36478.2-2018 物联网 信息交换和共享 第2部分:通用技术要求.pdf
GB-T 32918.3-2016 信息安全技术 SM2椭圆曲线公钥密码算法 第3部分:密钥交换协议.pdf
GB-T 43394-2023 科技馆功能配置指南.pdf
GB-T 3273-2015 汽车大梁用热轧钢板和钢带.pdf
ISO 31000-2018.pdf
1
/
8
评价文档
赞助2.5元 点击下载(451.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。