(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211070842.5 (22)申请日 2022.09.02 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 申请人 中国船舶集团有限公司综合 技术经 济研究院 (72)发明人 朱光明 张亮 谢安怡 李洪升  王宁 高尔扬 李宁  (74)专利代理 机构 西安智大知识产权代理事务 所 61215 专利代理师 季海菊 (51)Int.Cl. G06F 3/01(2006.01) G06F 16/36(2019.01) G06F 40/35(2020.01)G10L 15/22(2006.01) (54)发明名称 一种眼动辅助的语音交 互意图识别方法 (57)摘要 一种眼动辅助的语音交互意图识别方法, 包 括: 对语音交互指令进行意图识别和槽位填充, 得到交互意图和槽位信息; 对桌面交互人员进行 眼动追踪, 识别得到交互人员在交互软件UI上的 意图操控区域; 解析交互软件意图操控区域功 能, 从交互软件知识图谱中提取意图操控区域关 联的知识图谱子图; 对交互意图关联的槽位信息 进行分析, 从知识图谱子图中提取并完善语音指 令中句子成分缺省、 代词指向不明、 名词约束不 足的槽位信息; 基于交互意图和完善的槽位信 息, 从知识图谱中索引匹配语音指令的响应方 式, 发送给交互软件进行响应; 本发明面向桌面 式人机交互, 针对自然语音交互过程中语音指令 句子成分缺省、 代词指向不明、 名词约束不足等 问题, 把眼动和语音交互相融合, 通过眼动指向 的意图操控区域功能, 实现对交互意图槽位信息 的补充, 降低交互人员对语音交互指令的记忆负 荷, 实现自然语音交 互。 权利要求书1页 说明书4页 附图2页 CN 115437501 A 2022.12.06 CN 115437501 A 1.一种眼动辅助的语音交 互意图识别方法, 其特 征在于, 具体包括以下步骤: 1)对语音交 互指令进行意图识别和槽位 填充, 得到交 互意图和槽位信息; 2)识别得到交 互人员在交 互软件UI上的意图操控区域; 3)提取意图操控区域关联的知识图谱子图; 4)对步骤1)识别得到的交互意图关联的槽位信息进行分析, 从步骤3)得到的知识图谱 子图中提取并完 善步骤1)的槽位信息; 5)基于步骤1)的交互意图和步骤4)中完善的槽位信息, 从知识图谱中索引匹配语音指 令的响应方式, 发送给交 互软件进行响应。 2.根据权利要求1所述的眼动辅助的语音交互意图识别方法, 其特征在于, 所述步骤1) 中, 交互意图和槽位信息通过已知的联合 意图识别和槽位 填充算法获得。 3.根据权利要求1所述的眼动辅助的语音交互意图识别方法, 其特征在于, 所述步骤)2 中, 利用眼动仪或已知的眼动追踪算法对桌面交互人员在UI上注视点的实时检测, 交互人 员当前正在注视的区域即为 意图操控区域。 4.根据权利要求1所述的眼动辅助的语音交互意图识别方法, 其特征在于, 所述步骤3) 中, 通过解析交互软件UI布局和功能的映射关系得到意图操控区域功能即UI上的可操作 项, 进而根据意图操控区域功能关联的实体从软件知识图谱中进行实体链接, 提取得到知 识图谱子图。 5.根据权利要求1或2所述的眼动辅助的语音交互意图识别方法, 其特征在于, 所述步 骤4)中, 根据知识图谱子图中包含的实体信息, 对步骤1)语音指令中包括成分缺省、 指向不 明、 约束不 足的槽位信息进行唯一性补齐和确认, 完善槽位信息; 该过程在完善缺 失或不明 确的槽位信息的同时根据知识图谱子图对已有槽位信息进行了合法性验证。 6.根据权利要求1所述的眼动辅助的语音交互意图识别方法, 其特征在于, 所述步骤5) 中, 按交互软件支持的消息格式和消息交互方式, 把步骤1)得到的交互意图和根据步骤4) 完善和确认的槽位信息, 从知识图谱中索引匹配相关实体的对应交互意图的响应方式发送 给交互软件, 交 互软件进 而进行响应, 实现面向桌 面软件的自然语音交 互。权 利 要 求 书 1/1 页 2 CN 115437501 A 2一种眼动辅助的语音交互意 图识别方 法 技术领域 [0001]本发明涉及多模态人机交互领域, 特别涉及一种眼动辅助的语音交互意图识别方 法。 背景技术 [0002]随着语音识别、 眼动追踪、 行为识别等技术的发展, 语音、 眼动、 手势等自然交互方 式逐步成为鼠标、 键盘、 触控等传统交互方式之外的新型 交互模态, 给现有的人机交互带来 了极大的便利和效率 提升。 [0003]在现有技术中, 倾向于使用多轮对话的形 式实现对自然语音交互过程交互意图不 明或信息不完整等问题的解决。 但是, 人们在自然语音交互过程中可以根据 交互上下文实 现对缺省的句子成分、 指向不明的代词、 约束不全的名词等信息的自动关联补齐, 准确理解 对方的交互意图。 虽然通过多轮对话也可以实现对上述信息的关联补齐, 但是总显得语音 交互算法的智能性、 自然性不 足, 并且多轮对话也延迟了交互意图的确认时间, 降低了语音 交互的效率, 与通过语音、 眼动等自然交 互方式提升交 互效率的初衷背道而驰 。 [0004]专利申请CN112114672A, 公开了一种眼动结合语音辅助交互装置及方法, 包括语 音单元、 定位单元以及主控单元; 语音 单元用于获取用户的声音信号, 将声音信号传输至主 控单元; 定位单元用于获取注视点信号, 并识别注视点信号对应的位置信息, 将包含位置信 息的注视点信号传输至主控单元; 主控单元用于获取注视点信号, 并将包含位置信息的注 视点信号转换成屏幕坐标; 还用于获取声音信号, 识别声音信号中的控制指 令, 在相应的屏 幕坐标上实施控制指令。 实现通过定位单元(眼动)确定屏幕上的位置信息, 再结合语音单 元在该位置上执行相应的操作。 但是该专利申请仅仅实现了把语音指 令映射到正在注视的 屏幕区域来执行, 并未利用注视信息来完善语音指令的识别, 并未解决自然交互语音指令 存在句子成分缺省、 代词指向不明、 名词约束不足等情况导 致的槽位信息不全的问题。 发明内容 [0005]为了克服上述现有技术存在的缺陷, 本发明的目的在于提出了一种眼动辅助的语 音交互意图识别方法, 针对语音指令句 子成分缺省、 代词指向不明、 名称约束不足等问题, 利用眼动追踪技术实现交互人员意图操控区域功能的识别解析, 进而 结合软件知识图谱实 现对语音指令槽位信息的完善; 本发明结合眼动辅助, 能够在一定程度上避免多轮对话, 提 升语音交 互效率。 [0006]为实现上述目的, 本发明提供如下技 术方案: [0007]一种眼动辅助的语音交 互意图识别方法, 具体包括以下步骤: [0008]1)对语音交 互指令进行意图识别和槽位 填充, 得到交 互意图和槽位信息; [0009]2)识别得到交 互人员在交 互软件UI上的意图操控区域; [0010]3)提取意图操控区域关联的知识图谱子图; [0011]4)对步骤1)识别得到的交互意图关联的槽位信息进行分析, 从步骤3)得到的知识说 明 书 1/4 页 3 CN 115437501 A 3

.PDF文档 专利 一种眼动辅助的语音交互意图识别方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种眼动辅助的语音交互意图识别方法 第 1 页 专利 一种眼动辅助的语音交互意图识别方法 第 2 页 专利 一种眼动辅助的语音交互意图识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:40:28上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。