专利一种眼动辅助的语音交互意图识别方法 -在线下载 -AI解读-standardshub.tech

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211070842.5 (22)申请日 2022.09.02 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号申请人中国船舶集团有限公司综合技术经济研究院 (72)发明人朱光明　张亮　谢安怡　李洪升　王宁　高尔扬　李宁　 (74)专利代理机构西安智大知识产权代理事务所 61215 专利代理师季海菊 (51)Int.Cl. G06F 3/01(2006.01) G06F 16/36(2019.01) G06F 40/35(2020.01)G10L 15/22(2006.01) (54)发明名称一种眼动辅助的语音交互意图识别方法 (57)摘要一种眼动辅助的语音交互意图识别方法，包括：对语音交互指令进行意图识别和槽位填充，得到交互意图和槽位信息；对桌面交互人员进行眼动追踪，识别得到交互人员在交互软件UI上的意图操控区域；解析交互软件意图操控区域功能，从交互软件知识图谱中提取意图操控区域关联的知识图谱子图；对交互意图关联的槽位信息进行分析，从知识图谱子图中提取并完善语音指令中句子成分缺省、代词指向不明、名词约束不足的槽位信息；基于交互意图和完善的槽位信息，从知识图谱中索引匹配语音指令的响应方式，发送给交互软件进行响应；本发明面向桌面式人机交互，针对自然语音交互过程中语音指令句子成分缺省、代词指向不明、名词约束不足等问题，把眼动和语音交互相融合，通过眼动指向的意图操控区域功能，实现对交互意图槽位信息的补充，降低交互人员对语音交互指令的记忆负荷，实现自然语音交互。权利要求书1页说明书4页附图2页 CN 115437501 A 2022.12.06 CN 115437501 A 1.一种眼动辅助的语音交互意图识别方法，其特征在于，具体包括以下步骤： 1)对语音交互指令进行意图识别和槽位填充，得到交互意图和槽位信息； 2)识别得到交互人员在交互软件UI上的意图操控区域； 3)提取意图操控区域关联的知识图谱子图； 4)对步骤1)识别得到的交互意图关联的槽位信息进行分析，从步骤3)得到的知识图谱子图中提取并完善步骤1)的槽位信息； 5)基于步骤1)的交互意图和步骤4)中完善的槽位信息，从知识图谱中索引匹配语音指令的响应方式，发送给交互软件进行响应。 2.根据权利要求1所述的眼动辅助的语音交互意图识别方法，其特征在于，所述步骤1) 中，交互意图和槽位信息通过已知的联合意图识别和槽位填充算法获得。 3.根据权利要求1所述的眼动辅助的语音交互意图识别方法，其特征在于，所述步骤)2 中，利用眼动仪或已知的眼动追踪算法对桌面交互人员在UI上注视点的实时检测，交互人员当前正在注视的区域即为意图操控区域。 4.根据权利要求1所述的眼动辅助的语音交互意图识别方法，其特征在于，所述步骤3) 中，通过解析交互软件UI布局和功能的映射关系得到意图操控区域功能即UI上的可操作项，进而根据意图操控区域功能关联的实体从软件知识图谱中进行实体链接，提取得到知识图谱子图。 5.根据权利要求1或2所述的眼动辅助的语音交互意图识别方法，其特征在于，所述步骤4)中，根据知识图谱子图中包含的实体信息，对步骤1)语音指令中包括成分缺省、指向不明、约束不足的槽位信息进行唯一性补齐和确认，完善槽位信息；该过程在完善缺失或不明确的槽位信息的同时根据知识图谱子图对已有槽位信息进行了合法性验证。 6.根据权利要求1所述的眼动辅助的语音交互意图识别方法，其特征在于，所述步骤5) 中，按交互软件支持的消息格式和消息交互方式，把步骤1)得到的交互意图和根据步骤4) 完善和确认的槽位信息，从知识图谱中索引匹配相关实体的对应交互意图的响应方式发送给交互软件，交互软件进而进行响应，实现面向桌面软件的自然语音交互。权　利　要　求　书 1/1 页 2 CN 115437501 A 2一种眼动辅助的语音交互意图识别方法技术领域 [0001]本发明涉及多模态人机交互领域，特别涉及一种眼动辅助的语音交互意图识别方法。背景技术 [0002]随着语音识别、眼动追踪、行为识别等技术的发展，语音、眼动、手势等自然交互方式逐步成为鼠标、键盘、触控等传统交互方式之外的新型交互模态，给现有的人机交互带来了极大的便利和效率提升。 [0003]在现有技术中，倾向于使用多轮对话的形式实现对自然语音交互过程交互意图不明或信息不完整等问题的解决。但是，人们在自然语音交互过程中可以根据交互上下文实现对缺省的句子成分、指向不明的代词、约束不全的名词等信息的自动关联补齐，准确理解对方的交互意图。虽然通过多轮对话也可以实现对上述信息的关联补齐，但是总显得语音交互算法的智能性、自然性不足，并且多轮对话也延迟了交互意图的确认时间，降低了语音交互的效率，与通过语音、眼动等自然交互方式提升交互效率的初衷背道而驰。 [0004]专利申请CN112114672A，公开了一种眼动结合语音辅助交互装置及方法，包括语音单元、定位单元以及主控单元；语音单元用于获取用户的声音信号，将声音信号传输至主控单元；定位单元用于获取注视点信号，并识别注视点信号对应的位置信息，将包含位置信息的注视点信号传输至主控单元；主控单元用于获取注视点信号，并将包含位置信息的注视点信号转换成屏幕坐标；还用于获取声音信号，识别声音信号中的控制指令，在相应的屏幕坐标上实施控制指令。实现通过定位单元(眼动)确定屏幕上的位置信息，再结合语音单元在该位置上执行相应的操作。但是该专利申请仅仅实现了把语音指令映射到正在注视的屏幕区域来执行，并未利用注视信息来完善语音指令的识别，并未解决自然交互语音指令存在句子成分缺省、代词指向不明、名词约束不足等情况导致的槽位信息不全的问题。发明内容 [0005]为了克服上述现有技术存在的缺陷，本发明的目的在于提出了一种眼动辅助的语音交互意图识别方法，针对语音指令句子成分缺省、代词指向不明、名称约束不足等问题，利用眼动追踪技术实现交互人员意图操控区域功能的识别解析，进而结合软件知识图谱实现对语音指令槽位信息的完善；本发明结合眼动辅助，能够在一定程度上避免多轮对话，提升语音交互效率。 [0006]为实现上述目的，本发明提供如下技术方案： [0007]一种眼动辅助的语音交互意图识别方法，具体包括以下步骤： [0008]1)对语音交互指令进行意图识别和槽位填充，得到交互意图和槽位信息； [0009]2)识别得到交互人员在交互软件UI上的意图操控区域； [0010]3)提取意图操控区域关联的知识图谱子图； [0011]4)对步骤1)识别得到的交互意图关联的槽位信息进行分析，从步骤3)得到的知识说　明　书 1/4 页 3 CN 115437501 A 3

专利 一种眼动辅助的语音交互意图识别方法

专利一种眼动辅助的语音交互意图识别方法