专利 基于人体运动视频的模型构建方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210826109.5 (22)申请日 2022.07.14 (71)申请人平安科技（深圳）有限公司地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人何辰立　董博　葛昊　陆进　刘玉宇　肖京　 (74)专利代理机构北京鸿元知识产权代理有限公司 11327 专利代理师王守梅　袁文婷 (51)Int.Cl. G06T 17/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于人体运动视频的模型构建方法、装置及存储介质 (57)摘要本发明涉及人工智能技术领域，揭露一种基于人体运动视频的模型构建方法，包括获取待检测人体的骨骼运动视频，并将待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列；通过预训练获得的ResNet网络的骨干网络和分支网络，根据骨骼运动图片序列，分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量；进而获取待检测人体的三维骨骼特征向量；将待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中，获取待检测人体的人体三维模型。本发明能够有效提高人体三维模型中关节点的位置精确度，提高人体三维模型预测效率，进而达到获得更加平滑的三维人体模型的技术效果。权利要求书2页说明书11页附图2页 CN 115222882 A 2022.10.21 CN 115222882 A 1.一种基于人体运动视频的模型构建方法，应用于电子装置，其特征在于，所述方法包括：获取待检测人体的骨骼运动视频，并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列；通过预训练获得的ResNet网络的骨干网络和分支网络，根据所述骨骼运动图片序列，分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量；将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接，获取待检测人体的三维骨骼特征向量；将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中，获取待检测人体的人体三维模型。 2.如权利要求1所述的基于人体运动视频的模型构建方法，其特征在于，所述待检测人体的骨骼特征向量的获取方法，包括，通过ResNet网络模型的骨干网络，根据所述骨骼运动图片序列，确定骨骼运动特征和关键点热力图；根据所述关键点热力图，获取骨骼关节点的关键点坐标；根据所述骨骼关节点的关键点坐标，确定待检测人体的骨骼特征向量。 3.如权利要求1中所述的基于人体运动视频的模型构建方法，其特征在于，所述人体三维生成模型的训练方法包括：将各预测时序的人体的三维骨骼特征向量输入时序卷积网络，得到各预测时序的预测人体三维骨骼特征，基于预测时序的预测人体三维骨骼特征与所述预测时序对应的实际人体三维骨骼特征，训练时序卷积网络，直至预测人体三维骨骼特征与实际人体三维骨骼特征的损失函数满足预设标准，获取训练好的时序卷积网络；将时序卷积网络输出的各预测时序的骨骼预测特征输入分类器，得到各预测时序的人体三维模型，基于各预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型，训练分类器；直至预测时序的人体三维模型以及所述预测时序对应的实际人体三维模型的损失函数满足预设标准，获取训练好的分类器，进而获取训练好的人体三维生成模型。 4.如权利要求3所述的基于人体运动视频的模型构建方法，其特征在于，所述预测时序对应的实际人体三维模型的损失函数Lg，通过以下公式获取： Lg＝L3D+L2D+LSMPL+Ladv+Lmotion+LskeNet 其中， L3D是3D关节点的损失函数； L2D是2D关节点的损失函数； LSMPL是SMPL形状和位姿的损失函数； Ladv是对抗损失函数； LskeNet是骨骼网络输出的骨骼向量的损失函数； Lmotion是骨骼运动损失函数。 5.如权利要求 4所述的基于人体运动视频的模型构建方法，其特征在于，所述骨骼运动损失函数Lmotion的公式如下：其中， M为关节点的数量， T为待检测人体的骨骼运动视频的序列长度， gt为真实值； j为第j个关节， t为第t个时刻， τ为相邻帧的时间间隔； s( θ )为θ 的余弦相似度； θ为人体运动引起的同一人体位置在不同时刻向量的夹角。权　利　要　求　书 1/2 页 2 CN 115222882 A 26.如权利要求 4所述的基于人体运动视频的模型构建方法，其特征在于，所述对抗损失函数的构建方法为：利用AMASS数据集的人体骨骼特征数据作为输入数据生成对抗网络；其中，所述人体骨骼特征数据所对应的参考类别通过所述AMAS S数据集确定；通过所述对抗网络对所输入的数据进行分类处理，获取所述输入数据对应的骨骼特征的预测类别；依据所述骨骼特征的预测类别和所述输入数据对应的参考类别，构建损失函数。 7.如权利要求2所述的基于人体运动视频的模型构建方法，其特征在于，通过ResNet网络模型的骨干网络，根据所述骨骼运动图片序列，确定骨骼运动特征和关键点热力图的方法，包括，将所述骨骼运动图片序列输入ResNet网络模型，通过所述ResNet网络模型的反卷积层进行特征图维度扩充，获取维度扩充后的特征图；将所述维度扩充后的特征图经过归一层进行归一化处理，获取关键点热力图。 8.一种基于人体运动视频的模型构建方法，其特征在于，包括：获取单元，用于获取待检测人体的骨骼运动视频，并将所述待检测人体的骨骼运动视频按照时间序列分解为骨骼运动图片序列；人体的三维骨骼特征向量确定单元，用于通过预训练获得的ResNet网络的骨干网络和分支网络，根据所述骨骼运动图片序列，分别确定待检测人体的骨骼特征向量和待检测人体的三维外观特征向量；将所述待检测人体的骨骼特征向量与三维外观特征向量进行拼接，获取待检测人体的三维骨骼特征向量；人体三维模型生成单元，用于将所述待检测人体的三维骨骼特征向量输入预训练获得的人体三维生成模型中，获取待检测人体的人体三维模型。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求 1至7中任一所述的基于人体运动视频的模型构建方法中的步骤。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于人体运动视频的模型构建方法。权　利　要　求　书 2/2 页 3 CN 115222882 A 3

专利 基于人体运动视频的模型构建方法、装置及存储介质

专利基于人体运动视频的模型构建方法、装置及存储介质