standard download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210964608.0 (22)申请日 2022.08.12 (65)同一申请的已公布的文献号 申请公布号 CN 115050390 A (43)申请公布日 2022.09.13 (73)专利权人 杭州海康威视数字技 术股份有限 公司 地址 310051 浙江省杭州市滨江区阡 陌路 555号 (72)发明人 王滨 李超豪 陈加栋 王星  陈思  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 丁芸 马敬 (51)Int.Cl. G10L 25/48(2013.01)G06F 21/62(2013.01) G06N 3/08(2006.01) (56)对比文件 US 10885902 B1,2021.01.0 5 CN 113033191 A,2021.0 6.25 CN 110781519 A,2020.02.1 1 CN 110781519 A,2020.02.1 1 CN 112231748 A,2021.01.15 CN 114840872 A,202 2.08.02 CN 109614816 A,2019.04.12 CN 112417508 A,2021.02.26 CN 113032821 A,2021.0 6.25 CN 112001174 A,2020.1 1.27 CN 112966090 A,2021.0 6.15 JP 2020012980 A,2020.01.23 审查员 韦婉婉 (54)发明名称 一种语音隐私保护方法、 装置、 电子设备及 存储介质 (57)摘要 本申请实施例提供的一种语音隐私保护方 法、 装置、 电子设备及存储介质, 应用于语音 技术 领域, 该方法包括: 定位第一对象的原始语音数 据中的敏感音频片段; 提取原始 语音数据的目标 情境参数; 利用目标情境参数和敏感音频片段, 对原始语音数据进行内容脱敏处理和声纹脱敏 处理, 得到与目标情境参数匹配的脱敏音频。 应 用本申请实施例提供的技术方案, 能够实现对语 音数据脱敏, 提高语音数据的安全性; 后续还可 以对脱敏音频进行加密处理, 进一步提高语音数 据的安全性。 权利要求书2页 说明书16页 附图6页 CN 115050390 B 2022.12.06 CN 115050390 B 1.一种语音隐私保护方法, 其特 征在于, 所述方法包括: 定位第一对象的原 始语音数据中的敏感音频片段; 提取所述原始语音数据的目标情境参数, 所述目标情境参数包括目标内容情境参数和 目标声纹情境参数, 所述 目标内容情境参数包括语音类型、 上下文内容类型和敏感词词性 中的一种或多种, 所述 目标声纹情境参数包括对 象情绪、 对 象年龄和对 象性别中的一种或 多种; 利用所述目标内容情境参数和所述敏感音频片段, 对所述原始语音数据进行内容脱敏 处理, 得到与所述目标内容情境 参数匹配的一级 脱敏音频; 利用所述目标声纹情境参数, 对所述一级脱敏音频进行声纹脱敏处理, 得到与所述目 标声纹情境 参数匹配的二级 脱敏音频; 其中, 所述利用所述目标内容情境参数和所述敏感音频片段, 对所述原始语音数据进 行内容脱敏处 理, 得到与所述目标内容情境 参数匹配的一级 脱敏音频的步骤, 包括: 获取与所述目标内容情境参数相同的目标非敏感音频片段; 将所述原始语音数据中的 所述敏感音频片段替换为所述目标非敏感音频片段, 得到与所述目标内容情境参数匹配的 一级脱敏音频; 所述利用所述目标声纹情境参数, 对所述一级脱敏音频进行声纹脱敏处理, 得到与所 述目标声纹情境 参数匹配的二级 脱敏音频的步骤, 包括: 选取与所述目标声纹情境参数相同的第 二对象的目标声纹; 将所述一级脱敏音频转换 为所述目标声纹的音频, 得到与所述目标声纹情境 参数匹配的二级 脱敏音频。 2.根据权利要求1所述的方法, 其特征在于, 所述定位第 一对象的原始语音数据中的敏 感音频片段的步骤, 包括: 对第一对象的原 始语音数据进行滑窗处 理, 得到语音滑窗片段; 利用动态时间规整算法, 计算所述语音滑窗片段与预设敏感音频片段之间的距离; 若计算得到的距离小于预设距离阈值, 则确定所述语音滑窗片段为敏感音频片段。 3.根据权利要求1所述的方法, 其特征在于, 所述提取所述原始语音数据的目标情境参 数的步骤, 包括: 将所述原始语音数据输入预设情境参数提取模型, 得到所述原始语音数据的目标情境 参数; 所述预设情境参数提取模型是利用已标注情境参数的语音 数据训练集对神经网络训 练得到。 4.根据权利要求1所述的方法, 其特征在于, 所述获取与 所述目标内容情境参数相同的 目标非敏感音频片段的步骤, 包括: 从预设非敏感音频片段库中, 选取与所述目标内容情境参数相同的目标非敏感音频片 段, 所述预设非敏感音频片段库中存 储有多个非敏感音频片段; 或者 采用自然语言生成技术, 生成与所述目标内容情境参数相同的非敏感文本; 将所述非 敏感文本转换为目标非敏感音频片段。 5.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 在得到所述脱敏音频之后, 所述 方法还包括: 利用预设语音 音质增强模型, 对所述脱敏音频进行音质增强处 理, 得到目标脱敏音频。 6.根据权利要求5所述的方法, 其特征在于, 所述预设语音音质增强模型采用如下步权 利 要 求 书 1/2 页 2 CN 115050390 B 2骤, 对生成式对抗网络GAN进行训练得到: 提取第二对象的语音数据的语音特 征, 得到训练样本数据; 将所述脱敏音频输入所述GAN的生成器, 得到测试样本数据; 将所述训练样本数据和所述测试样本数据输入所述GAN的判别器, 得到所述训练样本 数据和所述测试样本数据的对比值; 若所述对比值小于预设对比阈值, 则结束所述GAN的训练, 将当前的所述GAN作为预设 语音音质增强模型; 若所述对比值大于或等于所述预设对比阈值, 则调整所述生成器和所述判别器的参 数, 返回执 行所述将所述脱敏音频输入所述GAN的生成器, 得到测试样本数据的步骤。 7.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 在得到所述脱敏音频之后, 所述 方法还包括: 按照预设加密算法, 对所述脱敏音频进行加密处 理, 得到加密音频。 8.一种语音隐私保护装置, 其特 征在于, 所述装置包括: 定位单元, 用于定位第一对象的原 始语音数据中的敏感音频片段; 提取单元, 用于提取所述原始语音数据的目标情境参数, 所述目标情境参数包括目标 内容情境参数和目标声纹情境参数, 所述 目标内容情境参数包括语音类型、 上下文内容类 型和敏感词词性中的一种或多种, 所述 目标声纹情境参数包括对 象情绪、 对 象年龄和对 象 性别中的一种或多种; 脱敏单元, 用于利用所述目标内容情境参数和所述敏感音频片段, 对所述原始语音数 据进行内容脱敏处理, 得到与所述 目标内容情境参数匹配的一级脱敏音频; 利用所述 目标 声纹情境参数, 对所述一级脱敏音频进行声纹脱敏处理, 得到与所述 目标声纹情境参数匹 配的二级 脱敏音频; 其中, 所述脱敏 单元, 具体用于: 获取与所述目标内容情境参数相同的目标非敏感音频片段; 将所述原始语音数据中的 所述敏感音频片段替换为所述目标非敏感音频片段, 得到与所述目标内容情境参数匹配的 一级脱敏音频; 选取与所述目标声纹情境参数相同的第 二对象的目标声纹; 将所述一级脱敏音频转换 为所述目标声纹的音频, 得到与所述目标声纹情境 参数匹配的二级 脱敏音频。 9.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总线, 其中, 所述 处理器、 所述 通信接口和所述存 储器通过 所述通信总线完成相互间的通信; 所述存储器, 用于存放计算机程序; 所述处理器, 用于执行所述存储器上所存放的程序时, 实现权利要求1 ‑7任一所述的方 法步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质内存储有计算机 程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑7任一所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 115050390 B 3

PDF文档 专利 一种语音隐私保护方法、装置、电子设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语音隐私保护方法、装置、电子设备及存储介质 第 1 页 专利 一种语音隐私保护方法、装置、电子设备及存储介质 第 2 页 专利 一种语音隐私保护方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。