(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211077962.8 (22)申请日 2022.09.05 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 王宁 倪林  (74)专利代理 机构 北京凯特来知识产权代理有 限公司 1 1260 专利代理师 郑立明 韩珂 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/36(2019.01) G06F 16/951(2019.01) G06F 16/955(2019.01) G06F 40/205(2020.01)G06F 40/35(2020.01) (54)发明名称 基于知识图谱的疾病问答方法、 系统、 设备 及存储介质 (57)摘要 本发明公开了一种基于知识图谱的疾病 问 答方法、 系统、 设备及存储介质, 相关方法包括: 收集医疗领域数据集, 并构建医疗知识图谱; 接 收用户的输入问句, 通过对输入问句进行语义解 析识别出标准的实体以及实体类型, 再通过问题 分类方法确定问题类型; 根据标准的实体、 实体 类型以及问题类型在所述医疗知识图谱中查询 出答案; 根据所述答案生成有组织的答案语句, 并返回给用户。 上述方案可以加快信息获取流 程, 提高了用户寻找所需信息的效率和准确度。 权利要求书2页 说明书10页 附图4页 CN 115438162 A 2022.12.06 CN 115438162 A 1.一种基于知识图谱的疾病问答方法, 其特 征在于, 包括: 收集医疗领域数据集, 并构建医疗知识图谱; 接收用户的输入问句, 通过对输入问句进行语义解析识别出标准的实体以及实体类 型, 再通过问题分类方法确定问题类型; 根据标准的实体、 实体 类型以及问题类型在所述医疗知识图谱中查询出答案; 根据所述 答案生成有组织的答案语句, 并返回给用户。 2.根据权利要求1所述的一种基于知识图谱的疾病问答方法, 其特征在于, 所述收集医 疗领域数据集, 并构建医疗知识图谱的步骤 包括: 采用scrapy框架编写对应的爬虫脚本, 通过对疾病页面对应的HTML代码进行分析, 确 定爬取元素, 使用Xpath方法定位爬取元素, 最 终通过爬虫脚本爬取得到初始数据; 其中, 所 述爬取元素为疾病相关信息; 对所述初始数据进行数据清洗后, 通过数据格 式化将疾病相关信 息以{数据 标签:数据 内容}来描述, 将数据格式化获得的信息保存到jso n文件中; 读取json文件, 对每一疾病相关信息进行遍历, 从中提取出实体、 关系类型以及属性类 型, 然后将关系类型和属性类型存储至知识图谱数据库中; 其中, 所述关系类型以及属性类 型均属于实体关系; 读取json文件, 对每一疾病相 关信息进行遍历, 提取出症状和疾病的对应关系作为查 询项, 结合查询项计算每个症状在疾病中所占权重, 将权重写入知识图谱的疾病与症状关 系中, 获得加入 疾病症状权 重信息的医疗知识图谱。 3.根据权利要求2所述的一种基于知识图谱的疾病问答方法, 其特征在于, 数据清洗与 数据格式化的方式包括: 对所述初始数据进行数据清洗: 对于数据丢失情况, 从网络端查找相关信息进行补充; 对于数据错误情况, 通过建立停用词表来过滤无关信息, 对于数据重复情况, 删除重复数 据; 数据格式化时, 将数据清洗获得的数据中每一疾病相关信息划分为多个数据标签, 再 结合相应的数据标签内容, 以{数据标签:数据内容}的方式进行描述。 4.根据权利要求1所述的一种基于知识图谱的疾病问答方法, 其特征在于, 所述通过对 输入问句进行语义解析识别出标准的实体以及实体类型, 再通过问题分类方法确定问题类 型包括: 通过基于深度 学习方法的网络模型对所述输入问句进行语义解析, 识别出实体以及实 体类型; 将识别出的实体映射到医疗知识图谱的标准实体上, 获得 标准的实体; 采用基于特 征词的问题分类方法, 根据输入问句的特 征词来确定问题类型。 5.根据权利要求4所述的一种基于知识图谱的疾病问答方法, 其特征在于, 所述将识别 出的实体映射到医疗知识图谱的标准实体上, 获得 标准的实体的方式包括: 根据识别出的实体的实体类型, 在所述医疗知识图谱中相应实体类型的词典中查找对 应的实体; 判断识别出的实体是否在相应实体类型的词典中, 若在, 则识别出的实体即为标准的 实体; 否则, 进入下一 步;权 利 要 求 书 1/2 页 2 CN 115438162 A 2计算识别出的实体与词典中实体的余弦相似度, 并在词典中选出与识别出的实体之间 的余弦相似度最大的多个实体作为 候选实体集 合; 计算识别出的实体与候选实体集合中每一实体的重复字数, 选择重复字数最多的实体 作为标准实体。 6.根据权利要求1所述的一种基于知识图谱的疾病问答方法, 其特征在于, 所述根据标 准的实体、 实体 类型以及问题类型在所述医疗知识图谱中查询出答案包括: 对标准的实体、 实体类型以及问题类型进行Cyper语句转换, 按照预先定义的问题类型 与属性类型以及关系类型 的转换关系, 将问题类型翻译为对应的属 性类型或者关系类型, 将转换得到的Cyper语句在所述医疗知识图谱中进行查询, 获得相应的答案; 其中, 所述关系类型与属性类型均属于实体关系, 所述答案为医疗知识图谱中的一种 实体。 7.根据权利要求1所述的一种基于知识图谱的疾病问答方法, 其特征在于, 所述根据 所 述答案生成有组织的答案语句包括: 预先根据不同问题类型设置不同的答案模块; 结合输入问句的问题类型, 将将所述答案嵌入至相应的回答模板中, 生成有组织的答 案语句。 8.一种基于知识图谱的疾病问答系统, 其特征在于, 基于权利要求1~7任一项所述的 方法实现, 该系统包括: 医疗知识图谱构建模块, 用于收集医疗领域数据集, 并构建医疗知识图谱; 人机交互模块, 用于 接收用户的输入问句, 以及将答案语句返回给用户; 自然语言理解模块, 用于通过对输入问句进行语义解析识别出标准的实体以及实体类 型, 再通过问题分类方法确定问题类型; 知识库答案查询模块, 用于根据标准的实体、 实体类型以及 问题类型在所述医疗知识 图谱中查询出答案; 自然语言生成模块, 用于根据所述 答案生成有组织的答案语句。 9.一种处理设备, 其特征在于, 包括: 一个或多个处理器; 存储器, 用于存储一个或多个 程序; 其中, 当所述一个或多个程序被所述一个或多个处理器执行时, 使得所述一个或多个 处理器实现如权利要求1~7任一项所述的方法。 10.一种可读存储介质, 存储有计算机程序, 其特征在于, 当计算机程序被处理器执行 时实现如权利要求1~7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115438162 A 3

.PDF文档 专利 基于知识图谱的疾病问答方法、系统、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的疾病问答方法、系统、设备及存储介质 第 1 页 专利 基于知识图谱的疾病问答方法、系统、设备及存储介质 第 2 页 专利 基于知识图谱的疾病问答方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。