standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210481470.9 (22)申请日 2022.05.05 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 阮雅端 赵冉 徐沁心 邓强强  陈启美  (74)专利代理 机构 南京天翼专利代理有限责任 公司 321 12 专利代理师 奚铭 (51)Int.Cl. G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 40/10(2022.01) G06V 10/56(2022.01)G06V 10/42(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种适于复杂场景的多人服装特征视频识 别方法 (57)摘要 一种适于复杂场景的多人服装特征视频识 别方法, 包括级联的行人检测 网络、 关键点检测 网络和服装 特征识别网络, 行人检测网络输出行 人检测框坐标, 关键点检测网络读取行人检测框 坐标后输 出关键点坐标, 服装特征识别网络读取 关键点坐标后输出服装的长度、 颜色。 本发明使 用SE‑InceptionV4网络作为SSD的主干网络, 提 高了行人检测的准确率, 提出改进的SE模块可以 提取每一通道特征图的中更具代表性的特征, SE‑InceptionV4网络 可以同时兼顾提取空间、 通 道中更有效的特征; 本发明针对性的截取与识别 任务相关的人体 关键点处的图片识别服装特征, 避免了由于服装种类复杂影 响特征提取, 相比直 接进行分类的网络提高了准确率。 权利要求书2页 说明书6页 附图8页 CN 114821477 A 2022.07.29 CN 114821477 A 1.一种适于复杂场景的多人服装特 征视频识别方法, 其特 征是包括以下步骤: step1: 构建行人数据集, 标注行人框、 行人关键点、 以及行人服装特征, 包括行人上下 衣长度、 颜色; step2: 使用融入了改进的SE模块的InceptionV4作为SSD的骨干网络, 搭建行人检测网 络; step3: 使用行 人数据集训练step2中的行 人检测网络; step4: 使用去掉Refi nelNet部分的CPN网络搭建 关键点检测网络; step5: 使用行 人数据集训练关键点检测网络; step6: 以ResNet50网络为基础搭建服装特征识别网络, 其中颜色识别根据图片HSV空 间的取值判断; step7: 读取 行人服装特 征数据集, 训练服装特 征识别网络; step8: 训练完成后级联各网络, 得到多人服装特征视频识别检测网络, 对于输入 的视 频或图片, 行人检测网络输出行人检测框坐标, 关键点检测网络读取行人检测框坐标后输 出关键点 坐标, 服装特 征识别网络读取关键点 坐标后输出服装的长度、 颜色。 2.根据权利要求1所述的适于复杂场景的多人服装特征视频识别方法, 其特征是步骤 step2检测网络具体为: 以InceptionV4网络为基础, 构建融入改进的SE模块的InceptionV4网络, 称为SE ‑ InceptionV4网络, Inc eptionV4网络包含stem模块、 Inc eption‑A模块组、 Inc eption‑B模块 组、 Inception‑C模块组、 Reduction ‑A模块和Reduction ‑B模块, 将Inc eption‑A模块组输出 的特征图编 号为A1, Inception ‑B模块组输出的特征图编号为B1, Inception ‑C模块组输出 的特征图编号为C1, SE ‑InceptionV4网络在Inception ‑A模块组、 Inception ‑B模块组和 Inception ‑C模块组后融入改进的SE模块, 改进的SE模块依次包括Max  poling层、 Global   poling层、 全连接层、 ReLu激活层、 全连接层和Sigmoid激活层, Max  poling层所选取的大小 根据通道 注意力模块所 添加的位置不同而不同, 具体如下: 对于Inception ‑A模块组, 添加改进的SE模块分支A, 具体为依次添加3*3Max  poling 层、 Global  poling层、 1*1*24 的全连接层、 ReLu激活层、 1*1*384全连接层及Sigmoid激活 层, 编号为A1的特征图经过分支A后得到1*1*384的特征图, 编号为A2, 将编号为A1的特征图 各通道的特征值乘上编号为A2的特征图对应通道的特征值后, 再送入Inception ‑A模块组 的后续卷积层; 对于Inception ‑B模块组, 添加改进的SE模块分支B, 具体为依次添加2*2Max  poling 层、 Global  poling层、 1*1*64的全连接层、 ReLu激活层、 1*1*1024全连接层及Sigmoid激活 层, 编号为B 1的特征图经过分支B后得到1*1*1024的特征图, 编号为B2, 将编号为B 1的特征 图各通道的特征值乘上编号为B2的特征图对应通道的特征值后, 再送入Inception ‑B模块 组的后续卷积层; 对于Inception ‑C模块组, 添加SE模块分支, 具体为依次添加Global  poling层、 1*1*96 的全连接层、 ReLu激活层、 1*1*1536全连接层及Sigmoid激活层, 编号为C1的特征图经过SE 模块分支后得到1*1*1536的特征图, 编号为C2, 将编号为C1的特征图各通道的特征值乘上 编号为C2的特 征图对应通道的特 征值后, 再送入I nception‑C模块组的后续卷积层; 采用SE‑InceptionV4网络为特征提取网络, 作为SSD的骨干网络; 将融合SE模块后的特权 利 要 求 书 1/2 页 2 CN 114821477 A 2征图A1×A2, B1×B2, C1×C2, 与SSD网络conv9, conv10, conv11生成的特征图一起输出到 SSD的预测网络, 输出 预测结果, 得到检测框坐标。 3.根据权利要求1所述的适于复杂场景的多人服装特征视频识别方法, 其特征是步骤 step4具体为: step4.1: 以CPN网络为基础构建关键点检测网络, 以ResNet网络作为骨干网络提取特 征, 然后由Gl obalNet检测关键点, 去掉CPN网络原有的Refi neNet部分, 输出关键点 坐标; step4.2: 在训练时只取后续服装特征识别网络所需的关键点的loss之和进行梯度回 传。 4.根据权利要求1所述的适于复杂场景的多人服装特征视频识别方法, 其特征是步骤 step6具体为: step6.1: 以ResNet50网络为基础搭建服装特征识别网络, 去掉ResNet50网络最后的 softmax层, 全 连接层输出维度改为512, 记为FC1, 全 连接层FC1后再添加一组并行的全 连接 层FC2, 每个全连接层 对应服装的其中一个属性进 行分类, 根据关键点检测网络输出的关键 点坐标截取关键点处的图片, 对 截取的图片进行拼接, 再送到ResNet5 0网络识别服装特 征; step6.2: 颜色识别, 将截取的图片从RGB空间转换为HSV空间, 根据颜色的H、 S、 V取值, 判断每个像素点所属颜色, 选取像素点 最多的颜色作为图片中服装的颜色。权 利 要 求 书 2/2 页 3 CN 114821477 A 3

.PDF文档 专利 一种适于复杂场景的多人服装特征视频识别方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种适于复杂场景的多人服装特征视频识别方法 第 1 页 专利 一种适于复杂场景的多人服装特征视频识别方法 第 2 页 专利 一种适于复杂场景的多人服装特征视频识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:00:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。