专利 一种智能化的在线教学资源知识点概念实体链接方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210018754.4 (22)申请日 2022.01.09 (71)申请人西北大学地址 710069 陕西省西安市碑林区太白北路229号 (72)发明人袁新瑞　王雨扬　 (74)专利代理机构西安西达专利代理有限责任公司 61202 专利代理师刘华 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种智能化的在线教学资源知识点概念实体链接方法 (57)摘要一种智能化的在线教学资源知识点概念实体链接方法，知识点概念实体识别模型和知识点概念链接模型，由于应用场景主要面向国内在线学习平台中的教学资源组织管理，国内的教学基本为中文教学，因此仅适用于中文语言文本，兼容部分英文文本。知识点概念实体识别是要从教学资源文本中抽取出包含的知识点概念实体词汇，学科、专业术语和历史事件等，抽取出的知识点概念实体称之为知识点提及；知识点概念关联指，根据所抽取出的知识点概念提及以及其所处的上下文语境，从知识库中找出语义相似度最高的概念知识，进行关系。通过知识点概念实体识别和知识点概念链接，实现教学资源之间与知识点概念之间的关联，达到了构建以概念知识为核心的教学资源组织体系目的。权利要求书5页说明书10页附图1页 CN 114443813 A 2022.05.06 CN 114443813 A 1.一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，包括以下步骤： 1)首先对字符串进行字符串清洗的预处理过程，字符串清洗主要是判断一个字符是否是为中文、数字和英文字符集，若不在该字符集中，则将该字符移除； 2)模型需要对清洗后的字符串C＝{c1， c2， ......， cl}中的各个元素通过 ”BIO”标注机制进行序列标注，当一个字符ci被标注为 ”B”时，代表字符ci为某个知识点概念词汇实体的首个字符， ”I”为个知识点概念词汇实体的中间字符，”O”为非知识点概念词汇字符，最终得到文本数据； 3)文本数据增强通过知识库中的知识点词条名词及其别名构建知识点概念词典Dict，使用最大双向匹配算法(BiDirectional Maximum Matching algorithm)对字符串C进行匹配，找出字符串中包含的词典词汇，所匹配到的字符子串均以 “BIEO”机制进行标注，即若匹配到的字符子串为Csub＝{ci， ci+1， ......， ci+m}， Csub∈Dict，对子串中的起始字符ci标注为 “B”，结束字符ci+m标注为“E”，起始字符ci和结束字符ci+m之间的字符串{ci+1， ci+2， ......， ci+m‑1}包含的字符全部标注为 ”I”，未匹配到的其它字符标注为 “O”，通过这种机制，可以得到一串带标注的字符串同时添加起始字符 “[CLS]”和结束字符 “[SEP]”， S＝{s[CLS]， s1， s2， ......， sl， S[SEP]}，其中每个元素si由字符串C中相应索引位置的字符ci和标注字符组成； 4)将上述得到带标注的字符串S进行向量空间嵌入操作Embeddin g(S)，即将S中的每个元素si表征为一个维度为ds的高维向量，其向量中的数值均使用KaiMing分布随机初始化，嵌入后的序列向量为 5)通过上述操作得到的序列向量ES包含了知识点概念词汇的边界信息，将对字符串C中所包含的上下文语义信息进行表征，使用的是预训练的神经网络语言模型Bert，预训练模型指已在大规模通用文本数据训练后的模型，将预训练的语言模型Bert作为语义编码器，能够有效地将文本序列表征为高维向量，将清洗后的字符串C作为预训练Bert语言模型的输入， Bert模型是以字符为单位对字符串C进行计算，对于输入的字符串 C＝{c1， c2， ......， cl}， Bert模型会首先在字符串的起始位置之前和末尾位置之后分别插入标识符 ”[CLS]” 和”[SEP]”，即字符串{ ″[CLS]″， c1， c2， ......， cl，″[SEP]″}作为模型的计算数据； 6)通过上述B ert模型的得到的输出向量F即为字符串C的编码向量，接下来将结合带有概念知识点词汇边界信息的序列向量ES，并通过LSTM模型和条件随机场CRF从字符串C中抽取候选概念知识点实体；将预测标签序列上相应的子串进行提取，可以得到知识点概念提及实体； 7)知识点概念实体链接模型是将抽取出的知识点概念提及实体M＝{m1， m2， ......， mk} 与知识库中的知识点实体进行匹配和关联，基于Levenshtein Distance字符串模糊匹配算法的候选知识点概念实体生成，将当前的提及实体mi与知识库中的知识点概念词汇进行模糊匹配，通过设定模糊匹配算法中的编辑距离参数Distance，将匹配到的编辑距离大于 Distance的知识点概念词汇进行过滤，生成候选知识点概念实体集 8)通过上述介绍的预训练Bert模型对每个候选知识点概念实体的摘要文本描述进行编码，获取用于表征候选知识点概念实体的向量，对于一个候选知识点概念实体entityi，权　利　要　求　书 1/5 页 2 CN 114443813 A 2其相应的摘要描述为字符串作为Bert模型的输入， Bert模型编码后的输出向量为将标识符 ”CLS”相应的隐含向量hcls，通过激活函数为tanh的全连接层，得到输出向量作为候选知识点概念实体的表征向量，即通过这种方式，可以获得候选知识点概念实体集的表征向量集合 9)对于每个提及知识点概念mi的表征，首先通过预训练Bert模型对提及知识点概念所位于的课程文本C＝{c1， c2， ......， cl}进行编码，获取课程文本的表征向量VC，获取表征向量VC的方式与候选知识点概念实体的表征向量方法相同； 10)课程文本中每个字符通过Bert模型计算后的编码向量为HC＝{hcls， h1， h2， ......， hl， hsep}，对于所抽取的提及知识点概念mi，其表示的明文子串在课程文本C的索引位置可以表示为一个二元组其中， beg表示子串在C中的起始位置索引， end 表示子串在C中的结束位置索引。将编码向量HC中提取中起始位置索引beg与结束位置索引end之间的编码向量，表示为将通过文本卷积网络TextCNN，得到提及知识点概念实体的表征向量 TextCNN模型对于输入的计算，将课程文本的表征向量VC与提及知识点概念实体的表征向量进行Concatenate 拼接操作，并经过一个激活函数为tanh的全连接层，得到输出向量即 11)将提及知识点概念实体的输出向量与候选知识点概念实体集的表征向量集合中的每个向量进行cos相似度计算，即从候选知识点概念实体集选择选择相似度最高的知识点概念与提及知识点概念进行关联，即最后的关联结果可以表示为一个二元组 12)输入课程文本中所包含的知识点概念链接结果为完成对教学资源之间与知识库中知识点概念之间的关联。 2.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的知识点概念实体识别模型的输入是一段文本字符串X＝{x1， x2， ......， xn}， X由n个字符构成， xi为X的第i个字符，该文本字符串可来自于课程视频字幕或电子教材文本等。 3.根据权利要求1所述的一种智能化的在线教学资源知识点概念实体链接方法，其特征在于，所述的字符串清洗的预处理方法的实现主要通过Unicode编码表实现，当一个字符 xi的Unicode编码位于\u4e00和\u9fa5之间时，即 ’ 字符 xi为中文字符。同理，当时，字符xi为数字字符；当或时，字符xi为英文字权　利　要　求　书 2/5 页 3 CN 114443813 A 3

专利 一种智能化的在线教学资源知识点概念实体链接方法

专利一种智能化的在线教学资源知识点概念实体链接方法