(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210018754.4
(22)申请日 2022.01.09
(71)申请人 西北大学
地址 710069 陕西省西安市碑林区太白北
路229号
(72)发明人 袁新瑞 王雨扬
(74)专利代理 机构 西安西达专利代理有限责任
公司 61202
专利代理师 刘华
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/36(2019.01)
G06F 40/216(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种智能化的在线教学资源知识点概念实
体链接方法
(57)摘要
一种智能化的在线教学资源知识点概念实
体链接方法, 知识点概念实体识别模 型和知识点
概念链接模 型, 由于应用场景主要面向国内在线
学习平台中的教学资源组织管 理, 国内的教学基
本为中文教学, 因此仅适用于中文语言文本, 兼
容部分英文文本。 知识点概念实体识别是要从教
学资源文本中抽取出包含的知识点概念实体词
汇, 学科、 专业术语和历史事件等, 抽取出的知识
点概念实体称之为知识点提及; 知识点概念关联
指, 根据所抽取出的知 识点概念提及以及其所处
的上下文语境, 从知识库中找出语义相似度最高
的概念知识, 进行关系。 通过知识点概念实体识
别和知识点概念链接, 实现教学资源之间与知识
点概念之间的关联, 达到了构建以概念知识为核
心的教学资源组织体系目的。
权利要求书5页 说明书10页 附图1页
CN 114443813 A
2022.05.06
CN 114443813 A
1.一种智能化的在线教学资源知识点 概念实体链接方法, 其特 征在于, 包括以下步骤:
1)首先对字符串进行字符串清洗的预处理过程, 字符串清洗主要是判断一个字符是否
是为中文、 数字和英文字符集, 若不在该字符集中, 则将该字符移除;
2)模型需要对清洗后的字符串C={c1, c2, ......, cl}中的各个元素通过 ”BIO”标注机
制进行序列 标注, 当一个字符ci被标注为 ”B”时, 代表字符ci为某个知识点概念词汇实体的
首个字符, ”I”为个知识 点概念词汇实体的中间字 符,”O”为非知识点概念词汇字符, 最终得
到文本数据;
3)文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict,
使用最大双向匹配算法(BiDirectional Maximum Matching algorithm)对字符串C进行匹
配, 找出字 符串中包含的词典词汇, 所匹配到的字 符子串均以 “BIEO”机制进行标注, 即若匹
配到的字符子串为Csub={ci, ci+1, ......, ci+m}, Csub∈Dict, 对子串中 的起始字符ci标注为
“B”, 结束字符ci+m标注为“E”, 起始字符ci和结束字符ci+m之间的字符串{ci+1, ci+2, ......,
ci+m‑1}包含的字符全部标注为 ”I”, 未匹配到的其它字符标注为 “O”, 通过这种机制, 可以得
到一串带标注的字符串同时添加起始字符 “[CLS]”和结束字符 “[SEP]”, S={s[CLS], s1,
s2, ......, sl, S[SEP]}, 其中每个元素si由字符串C中相应索引位置的字符ci和标注字符组
成;
4)将上述得到带标注的字符串S进行向量空间嵌入操作Embeddin g(S), 即将S中的每个
元素si表征为一个维度为ds的高维向量, 其向量中的数值均使用KaiMing分布随机初始化,
嵌入后的序列向量 为
5)通过上述操作得到的序列向量ES包含了知 识点概念词汇的边界信息, 将 对字符串C中
所包含的上下文语义信息进行表征, 使用的是预训练的神经网络语言模型Bert, 预训练模
型指已在大规模通用文本数据训练后的模型, 将预训练的语言模型Bert作为语义编码器,
能够有效地将文本序列表征为高维向量, 将清洗后的字符串C作为预训练Bert语言模型的
输入, Bert模型是以字符为单位对 字符串C进行计算, 对于输入的字符串 C={c1, c2, ......,
cl}, Bert模型会首先在字符串的起始位置之前和末尾位置之后分别插入标识符 ”[CLS]”
和”[SEP]”, 即字符串{ ″[CLS]″, c1, c2, ......, cl,″[SEP]″}作为模型的计算数据;
6)通过上述B ert模型的得到的输出向量F即为字符串C的编码向量, 接下来将结合带有
概念知识点词汇边界信息的序列向量ES, 并通过LSTM模型和条件随机场CRF从字符串C中抽
取候选概念知识点实体; 将预测标签序列上相 应的子串进行提取, 可以得到知识点概念提
及实体;
7)知识点概念实体链接模型是将抽取出的知识点概念提及实体M={m1, m2, ......, mk}
与知识库中的知识点实体进行匹配和关联, 基于Levenshtein Distance字符串模糊匹配算
法的候选知识点概念实体生成, 将当前的提及实体mi与知识库中 的知识点概念词汇进行模
糊匹配, 通过设定模糊匹配算法中的编辑距离参数Distance, 将匹配到的编辑距离大于
Distance的知识点 概念词汇进行 过滤, 生成候选知识点 概念实体集
8)通过上述介绍的预训练Bert模型对每个候选知识点概念实体的摘要文本描述进行
编码, 获取用于表征候选知识点概念实体的向量, 对于一个候选知识点概念实体entityi,权 利 要 求 书 1/5 页
2
CN 114443813 A
2其相应的摘要描述为字符串
作为Bert模型的输入, Bert模型编码后的输出向
量为
将标识符 ”CLS”相应的隐含向量hcls,
通过激活函数为tanh的全连接层, 得到输出向量
作为候选知识点概念实体的表征向
量, 即
通过这种方式, 可以获得候选知识点概念实体集
的表征向量 集合
9)对于每个提及知识点概念mi的表征, 首先通过预训练Bert模型对提及知识点概念所
位于的课程文本C={c1, c2, ......, cl}进行编码, 获取课程文本的表征向量VC, 获取表征向
量VC的方式与候选知识点 概念实体的表征向量方法相同;
10)课程文本中每个字符通过Bert模型计算后的编码向量为HC={hcls, h1, h2, ......,
hl, hsep}, 对于所抽取的提及知识点概念mi, 其表示的明文子串在课 程文本C的索引位置可以
表示为一个二元组
其中, beg表示子串在C中的起始位置索引, end
表示子串在C中的结束位置索引。 将编码向量HC中提取
中起始位置索引beg与结束
位置索引end之间的编码向量, 表示为
将
通过文
本卷积网络TextCNN, 得到提及知识点概念实体的表 征向量
TextCNN模型对于输入
的计算, 将 课程文本的表征向量VC与提及知识点概念实体的表征向量
进行Concatenate
拼接操作, 并经过一个激活函数为tanh的全连接层, 得到输出向量
即
11)将提及知识点概念实体的输出向量
与候选知识点概念实体集 的表征向量集合
中的每个向量进行cos相似度计算, 即
从候选知识点概念实体集
选择选择相似度最高的知识点概念与提
及知识点概念进行关联, 即最后的关联 结果可以表示 为一个二元组
12)输入课程文本中所包含的知识点概念链接结果为
完成
对教学资源之间与知识库中知识点 概念之间的关联。
2.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法, 其特
征在于, 所述的知识点概念实体识别模 型的输入是一段文本字符串X={x1, x2, ......, xn},
X由n个字符构成, xi为X的第i个字符, 该文本字符串可来自于课程视频字幕或电子教材文
本等。
3.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法, 其特
征在于, 所述的字 符串清洗的预 处理方法的实现主要通过Unicode编码表实现, 当一个字 符
xi的Unicode编码
位于\u4e00和\u9fa5之间时, 即 ’
字符
xi为中文字符。 同理, 当
时, 字符xi为数字字符; 当
或
时, 字符xi为英文字权 利 要 求 书 2/5 页
3
CN 114443813 A
3
专利 一种智能化的在线教学资源知识点概念实体链接方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:00上传分享