(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210057040.4
(22)申请日 2022.01.18
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 郑喜民 贾云舒 舒畅 陈又新
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
代理人 廖慧贤
(51)Int.Cl.
G10L 15/26(2006.01)
G10L 15/25(2013.01)
G10L 25/30(2013.01)
G10L 25/63(2013.01)G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 40/216(2020.01)
(54)发明名称
语音消息生成方法和装置、 计算机设备、 存
储介质
(57)摘要
本实施例提供一种基于表情识别的语音消
息生成方法和装置、 计算机设备、 存储介质, 属于
人工智能技术领域。 该基于表情识别的语音消息
生成方法包括: 获取语音数据及其对应的面部图
像, 对语音数据进行语音识别得到文本消息, 并
对面部图像进行表情识别得到表情消息; 将文本
消息和表情消息输入至第一模型, 由第一模型根
据文本消息和表情消息得到回答文本消息, 最后
对回答文本消息进行语音转换, 得到对应的回答
语音消息。 本申请实施例将面部图像加入到聊天
机器人中, 通过对面部图像的识别, 能够更加精
准判断出当前的情景, 并由第一模 型根据文本消
息和表情消息得到回答文本消息, 且将回答文本
消息转换成语音回复消息, 进而提高语音回复消
息的准确率。
权利要求书2页 说明书15页 附图5页
CN 114400005 A
2022.04.26
CN 114400005 A
1.一种基于表情识别的语音消息生成方法, 其特 征在于, 包括:
获取语音数据及其对应的面部图像:
对所述语音数据进行语音识别得到文本消息;
对所述面部图像进行表情识别得到表情消息:
将所述文本消息和所述表情消息输入至第 一模型, 所述第 一模型根据 所述文本消息和
所述表情消息得到回答文本消息:
对所述回答文本消息进行语音转换, 得到对应的回答语音消息 。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述语音数据进行语音识别得到文
本消息, 包括:
对所述语音数据的时域信号进行积分变换 得到频域信号;
根据所述时域信号和所述频域信号, 构建平面空间;
通过第一神经网络, 在所述平面空间中对所述语音数据进行卷积运算, 得到语音序列
和序列长度;
根据所述序列长度对所述语音序列进行切片, 得到多个切片序列;
通过第二神经网络对多个所述切片序列进行文本转换, 得到所述文本消息 。
3.根据权利要求1所述的方法, 其特征在于, 所述对所述面部图像进行表情识别得到表
情消息, 包括:
通过第三神经网络对所述 面部图像进行自注意力筛 选, 得到变换参数;
根据所述变换参数对所述 面部图像进行 扭曲变换, 得到变换图像;
通过第四神经网络对所述面部图像和所述变换图像进行表情识别, 得到所述表情消
息。
4.根据权利要求3所述的方法, 其特征在于, 所述第 四神经网络包括卷积层、 全连接层
和分类器; 所述通过第四神经网络对所述面部图像和所述变换图像进行表情识别, 得到表
情消息, 包括:
通过所述卷积层对所述面部图像和所述变换图像进行特征提取, 得到多个图像特征向
量;
通过所述全连接层对多个所述图像特 征向量进行拼接, 得到图像拼接向量;
通过所述分类 器对所述图像拼接向量进行表情分类, 得到所述表情消息 。
5.根据权利要求1所述的方法, 其特征在于, 在所述将所述文本消息和所述表情消息输
入至第一模型, 所述第一模型根据所述文本消息和所述表情消息得到回答文本消息之前,
包括:
获取消息数据集; 其中, 所述消息数据集包括多个问题样本数据、 多个预设表情和多个
回答样本数据, 所述问题样本数据和所述预设表情一一对应以形成绑定组, 每个所述绑定
组与所述回答样本数据具有映射关系;
对多个所述问题样本数据进行分词, 得到多个问题分词数据;
对多个所述回答样本数据进行分词, 得到多个回答分词数据;
获取第一原 始模型;
根据多个所述问题分词数据、 多个所述 回答分词数据和多个所述预设表情对所述第 一
原始模型进行训练, 得到所述第一模型。权 利 要 求 书 1/2 页
2
CN 114400005 A
26.根据权利要求5所述的方法, 其特征在于, 所述第一原始模型包括编码器和解码器;
所述根据多个所述问题分词数据、 多个所述回答分词数据和多个所述预设表情对所述第一
原始模型进行训练, 得到第一模型, 包括:
将多个所述问题分词数据和多个所述 回答分词数据输入至所述编码器进行第 一编码,
得到样本编码数据;
将多个所述预设表情输入至所述编码器进行第二编码, 得到表情编码数据;
对所述样本编码数据和所述表情编码数据进行拼接, 得到样本拼接数据;
将所述样本拼接数据输入至所述 解码器进行解码, 得到样本解码数据;
根据所述样本拼接数据和所述样本解码数据, 计算所述第一原始模型的损 失函数, 得
到损失值;
根据所述损失值更新所述第一原 始模型, 得到第一模型。
7.根据权利要求1至6任一项所述的方法, 其特征在于, 所述对所述回答文本消息进行
语音转换, 得到对应的回答语音消息, 包括:
对所述回答文本消息进行语音转换, 得到初步语音消息;
对所述初步语音消息进行变换, 得到声谱图;
提取所述声谱图的音频 特征;
通过第五神经网络模型对所述音频 特征进行解码, 得到每一帧对应的音频 数据;
将所述音频 数据进行合成处 理, 得到对应的回答语音消息 。
8.一种基于表情识别的语音消息生成装置, 其特 征在于, 包括:
数据采集模块, 用于获取语音数据及其对应的面部图像;
语音识别模块, 用于对所述语音数据进行语音识别得到文本消息;
表情识别模块, 用于对所述 面部图像进行表情识别得到表情消息;
文本消息获取模块, 用于将所述文本消息和所述表情消息输入至第一模型, 所述第一
模型根据所述文本消息和所述表情消息得到回答文本消息;
语音消息获取模块, 用于对所述回答文本消息进行语音转换, 得到对应的回答语音消
息。
9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器和 处理器, 其中, 所述存
储器中存 储有程序, 所述 程序被所述处 理器执行时所述处 理器用于执 行:
如权利要求1至7中任一项所述的方法。
10.一种存储介质, 所述存储介质为计算机可读存储介质, 其特征在于, 所述计算机可
读存储有计算机程序, 在所述计算机程序被 计算机执 行时, 所述计算机用于执 行:
如权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114400005 A
3
专利 语音消息生成方法和装置、计算机设备、存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:52上传分享