专利 一种语音隐私保护方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210964608.0 (22)申请日 2022.08.12 (65)同一申请的已公布的文献号申请公布号 CN 115050390 A (43)申请公布日 2022.09.13 (73)专利权人杭州海康威视数字技术股份有限公司地址 310051 浙江省杭州市滨江区阡陌路 555号 (72)发明人王滨　李超豪　陈加栋　王星　陈思　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 专利代理师丁芸　马敬 (51)Int.Cl. G10L 25/48(2013.01)G06F 21/62(2013.01) G06N 3/08(2006.01) (56)对比文件 US 10885902 B1,2021.01.0 5 CN 113033191 A,2021.0 6.25 CN 110781519 A,2020.02.1 1 CN 110781519 A,2020.02.1 1 CN 112231748 A,2021.01.15 CN 114840872 A,202 2.08.02 CN 109614816 A,2019.04.12 CN 112417508 A,2021.02.26 CN 113032821 A,2021.0 6.25 CN 112001174 A,2020.1 1.27 CN 112966090 A,2021.0 6.15 JP 2020012980 A,2020.01.23 审查员韦婉婉 (54)发明名称一种语音隐私保护方法、装置、电子设备及存储介质 (57)摘要本申请实施例提供的一种语音隐私保护方法、装置、电子设备及存储介质，应用于语音技术领域，该方法包括：定位第一对象的原始语音数据中的敏感音频片段；提取原始语音数据的目标情境参数；利用目标情境参数和敏感音频片段，对原始语音数据进行内容脱敏处理和声纹脱敏处理，得到与目标情境参数匹配的脱敏音频。应用本申请实施例提供的技术方案，能够实现对语音数据脱敏，提高语音数据的安全性；后续还可以对脱敏音频进行加密处理，进一步提高语音数据的安全性。权利要求书2页说明书16页附图6页 CN 115050390 B 2022.12.06 CN 115050390 B 1.一种语音隐私保护方法，其特征在于，所述方法包括：定位第一对象的原始语音数据中的敏感音频片段；提取所述原始语音数据的目标情境参数，所述目标情境参数包括目标内容情境参数和目标声纹情境参数，所述目标内容情境参数包括语音类型、上下文内容类型和敏感词词性中的一种或多种，所述目标声纹情境参数包括对象情绪、对象年龄和对象性别中的一种或多种；利用所述目标内容情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理，得到与所述目标内容情境参数匹配的一级脱敏音频；利用所述目标声纹情境参数，对所述一级脱敏音频进行声纹脱敏处理，得到与所述目标声纹情境参数匹配的二级脱敏音频；其中，所述利用所述目标内容情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理，得到与所述目标内容情境参数匹配的一级脱敏音频的步骤，包括：获取与所述目标内容情境参数相同的目标非敏感音频片段；将所述原始语音数据中的所述敏感音频片段替换为所述目标非敏感音频片段，得到与所述目标内容情境参数匹配的一级脱敏音频；所述利用所述目标声纹情境参数，对所述一级脱敏音频进行声纹脱敏处理，得到与所述目标声纹情境参数匹配的二级脱敏音频的步骤，包括：选取与所述目标声纹情境参数相同的第二对象的目标声纹；将所述一级脱敏音频转换为所述目标声纹的音频，得到与所述目标声纹情境参数匹配的二级脱敏音频。 2.根据权利要求1所述的方法，其特征在于，所述定位第一对象的原始语音数据中的敏感音频片段的步骤，包括：对第一对象的原始语音数据进行滑窗处理，得到语音滑窗片段；利用动态时间规整算法，计算所述语音滑窗片段与预设敏感音频片段之间的距离；若计算得到的距离小于预设距离阈值，则确定所述语音滑窗片段为敏感音频片段。 3.根据权利要求1所述的方法，其特征在于，所述提取所述原始语音数据的目标情境参数的步骤，包括：将所述原始语音数据输入预设情境参数提取模型，得到所述原始语音数据的目标情境参数；所述预设情境参数提取模型是利用已标注情境参数的语音数据训练集对神经网络训练得到。 4.根据权利要求1所述的方法，其特征在于，所述获取与所述目标内容情境参数相同的目标非敏感音频片段的步骤，包括：从预设非敏感音频片段库中，选取与所述目标内容情境参数相同的目标非敏感音频片段，所述预设非敏感音频片段库中存储有多个非敏感音频片段；或者采用自然语言生成技术，生成与所述目标内容情境参数相同的非敏感文本；将所述非敏感文本转换为目标非敏感音频片段。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，在得到所述脱敏音频之后，所述方法还包括：利用预设语音音质增强模型，对所述脱敏音频进行音质增强处理，得到目标脱敏音频。 6.根据权利要求5所述的方法，其特征在于，所述预设语音音质增强模型采用如下步权　利　要　求　书 1/2 页 2 CN 115050390 B 2骤，对生成式对抗网络GAN进行训练得到：提取第二对象的语音数据的语音特征，得到训练样本数据；将所述脱敏音频输入所述GAN的生成器，得到测试样本数据；将所述训练样本数据和所述测试样本数据输入所述GAN的判别器，得到所述训练样本数据和所述测试样本数据的对比值；若所述对比值小于预设对比阈值，则结束所述GAN的训练，将当前的所述GAN作为预设语音音质增强模型；若所述对比值大于或等于所述预设对比阈值，则调整所述生成器和所述判别器的参数，返回执行所述将所述脱敏音频输入所述GAN的生成器，得到测试样本数据的步骤。 7.根据权利要求1 ‑4任一项所述的方法，其特征在于，在得到所述脱敏音频之后，所述方法还包括：按照预设加密算法，对所述脱敏音频进行加密处理，得到加密音频。 8.一种语音隐私保护装置，其特征在于，所述装置包括：定位单元，用于定位第一对象的原始语音数据中的敏感音频片段；提取单元，用于提取所述原始语音数据的目标情境参数，所述目标情境参数包括目标内容情境参数和目标声纹情境参数，所述目标内容情境参数包括语音类型、上下文内容类型和敏感词词性中的一种或多种，所述目标声纹情境参数包括对象情绪、对象年龄和对象性别中的一种或多种；脱敏单元，用于利用所述目标内容情境参数和所述敏感音频片段，对所述原始语音数据进行内容脱敏处理，得到与所述目标内容情境参数匹配的一级脱敏音频；利用所述目标声纹情境参数，对所述一级脱敏音频进行声纹脱敏处理，得到与所述目标声纹情境参数匹配的二级脱敏音频；其中，所述脱敏单元，具体用于：获取与所述目标内容情境参数相同的目标非敏感音频片段；将所述原始语音数据中的所述敏感音频片段替换为所述目标非敏感音频片段，得到与所述目标内容情境参数匹配的一级脱敏音频；选取与所述目标声纹情境参数相同的第二对象的目标声纹；将所述一级脱敏音频转换为所述目标声纹的音频，得到与所述目标声纹情境参数匹配的二级脱敏音频。 9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述存储器，用于存放计算机程序；所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1 ‑7任一所述的方法步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1 ‑7任一所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 115050390 B 3

专利 一种语音隐私保护方法、装置、电子设备及存储介质

专利一种语音隐私保护方法、装置、电子设备及存储介质