standard download
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
问题反馈
首页
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211030862.X (22)申请日 2022.08.26 (71)申请人 广州佰锐网络科技有限公司 地址 510665 广东省广州市天河区科韵路 16号自编第3栋701(01梯七层)(仅限 办公) (72)发明人 不公告发明人 (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 何卿华 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/34(2022.01) G06V 10/36(2022.01) G06V 10/44(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/08(2006.01) (54)发明名称 一种数字人生成方法及系统 (57)摘要 本发明公开了一种数字人生成方法及系统, 所述方法根据深度自编码理论调用编码器分别 提取人脸图像与语音特征, 并在隐藏空间进行特 征融合, 建立语音与人脸特征关联关系, 然后将 融合特征输入经过预训练的GAN网络, 生成具有 动态变化的数字人图像序列, 并利用语音与人脸 的关联关系驱动数字人进行动态活动。 本发明提 出的数字 人可以被不同的语音所驱动, 且易于替 换人物形象, 不会出现畸形, 能有效提高数字人 的形象与展示效果; 而且在处理过程中对各个图 像进行修复与优化, 能进一步提高数字人的逼真 度和成像效果, 以满足不同领域的虚拟主持或数 字替身的应用需求。 权利要求书2页 说明书9页 附图4页 CN 115471886 A 2022.12.13 CN 115471886 A 1.一种数字人生成方法, 其特 征在于, 所述方法包括: 在获取语音数据以及包含背景和人脸的原始图像后, 融合所述语音数据与 所述原始图 像得到包 含人脸动态变化的数字人图像; 采用预设的人脸样本图像替换 所述数字人图像里的五官图像, 得到替换图像; 修复所述替换图像中已替换的五官特征, 并将修复后的替换图像与 预设背景图像进行 图像融合得到融合图像; 提取所述融合图像的人物特征, 并利用所述人物特征训练预设的GAN网络得到包含姿 势变化的数字人图像。 2.根据权利要求1所述的数字人生成方法, 其特征在于, 所述采用预设的人脸样本图像 替换所述数字人图像里的五官图像, 得到替换图像, 包括: 通过边缘检测算法对所述数字人图像的五官区域进行边缘检测, 得到五官区域信息, 其中, 五官区域包括: 眼部区域, 嘴巴区域, 鼻子区域, 耳朵区域, 眉区域和脸部轮廓区域; 基于所述五官区域信息从预设的样本空间中提取对应的人脸样本 图像, 其中, 预设的 样本空间由用户预设的图像样本和视频样本组成; 将所述人脸样本图像替换 所述五官区域信息对应的五官图像, 得到替换图像。 3.根据权利要求2所述的数字人生成方法, 其特征在于, 所述修复所述替换图像中已替 换的五官 特征, 包括: 对所述替换图像进行平 滑滤波处 理得到滤波图像; 获取所述滤波图像中的五官区域的边界信 息, 所述边界信 息为所述人脸样本图像与 所 述数字人图像的图像痕迹; 将所述边界信息融合至所述滤波图像中。 4.根据权利要求1所述的数字人生成方法, 其特征在于, 所述将修复后的替换图像与 预 设背景图像进行图像融合得到融合图像, 包括: 确定预设的背景图像的人脸区域信息; 按照所述人脸区域信息将修复后的替换图像拼接在预设背景图像中得到融合图像。 5.根据权利要求2所述的数字人生成方法, 其特征在于, 所述提取所述融合图像的人物 特征, 并利用所述人物特 征训练预设的GAN网络得到包 含姿势变化的数字人图像, 包括: 从所述融合图像中提取人物特征, 并获取预设的非人物特征, 其中, 所述预设的非人物 特征为用户的预设的视频样本里每一帧图像的姿势变化特 征; 对所述人物特 征与预设的非人物特 征进行特征融合得到融合特 征; 将所述融合特 征输入至预设的GAN网络中, 得到含有 姿势变化的数字人图像序列; 采用所述含有 姿势变化的数字人图像序列构建数字人图像。 6.根据权利要求1 ‑5任意一项所述的数字人生成方法, 其特征在于, 在所述利用所述人 物特征训练预设的GAN网络得到包 含姿势变化的数字人图像的步骤后, 所述方法还 包括: 将所述数字人图像与所述语音数据合成音视频 数据; 将所述音视频 数据发送至预设的用户终端, 以供用户查看。 7.根据权利要求1 ‑5任意一项所述的数字人生成方法, 其特征在于, 所述融合所述语音 数据与所述原 始图像得到包 含人脸动态变化的数字人图像, 包括: 确定所述原始图像的人脸区域, 并提取所述人脸区域的人脸关键点, 基于所述人脸关权 利 要 求 书 1/2 页 2 CN 115471886 A 2键点进行 人脸对齐得到人脸 正面图像; 调用预设的人脸编码器从所述人脸正面图像提取人脸特征, 以及调用预设的语音编码 器从所述语音数据中提取语音特 征; 对所述人脸特征和所述语音特征进行特征融合得到 融合特征, 并将所述融合特征输入 至预设的解码器混合得到包 含人脸动态变化的数字人图像。 8.一种数字人生成系统, 其特 征在于, 所述系统包括: 融合模块, 用于在获取语音数据以及包含背景和人脸的原始图像后, 融合所述语音数 据与所述原 始图像得到包 含人脸动态变化的数字人图像; 替换模块, 用于采用预设的人脸样本 图像替换所述数字人图像里的五官图像, 得到替 换图像; 修复模块, 用于修复所述替换图像中已替换的五官特征, 并将修复后的替换图像与预 设背景图像进行图像融合得到融合图像; 编辑模块, 用于提取所述融合图像的人物特征, 并利用所述人物特征训练预设的GAN网 络得到包 含姿势变化的数字人图像。 9.一种电子设备, 包括: 存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7任意一项 所述的数字 人生成方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机可 执行程序, 所述计算机可执行程序用于使计算机执行如权利要求1 ‑7任意一项所述的数字 人生成方法。权 利 要 求 书 2/2 页 3 CN 115471886 A 3
专利 一种数字人生成方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 04:38:58
上传分享
举报
下载
原文档
(522.2 KB)
分享
友情链接
GB-T 25030-2010 建筑物清洗维护质量要求.pdf
DB41-T 1047-2015 锅炉风机节能潜力评估导则 河南省.pdf
DB44-T 983-2012 水泥回转窑节能评价方法 广东省.pdf
CY-T 101.8-2014 新闻出版内容资源加工规范 第8部分%3A图书加工.pdf
T-CEC 5067—2022 火力发电工程安全检查规程.pdf
DB32-T 4285-2022 预应力混凝土空心方桩基础技术规程 江苏省.pdf
GB-T 42081-2022 志愿服务基础数据元.pdf
奇安信 2020年网络安全应急响应分析报告 2021.pdf
DL-T 1066-2023 水电站设备检修管理导则.pdf
T-CNFPIA 3007—2019 超薄高密度纤维板.pdf
工信部 网络安全产业人才发展报告2021版.pdf
YD-T 1756-2008 电信网和互联网管理安全等级保护要求.pdf
T-JYBZ 002—2018 教育用音视频录播系统.pdf
专利 一种用于堡垒机的数据库高危指令审核方法和系统.PDF
GB-T 903-2019 无色光学玻璃.pdf
GA-T 1718-2020 信息安全技术 大数据平台安全管理产品安全技术要求.pdf
腾讯 银行业数据安全体系建设指南 2020.pdf
DB41-T 2665-2024 大气挥发性有机物走航自动监测技术规范 河南省.pdf
SN-T 5405.1-2021 互联网环境下的认证技术指南 第1部分:总则.pdf
GB-T 42453-2023 信息安全技术 网络安全态势感知通用技术要求.pdf
1
/
3
16
评价文档
赞助2.5元 点击下载(522.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。