(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210409679.4
(22)申请日 2022.04.19
(71)申请人 浙江工商大 学
地址 310018 浙江省杭州市下沙高教园区
学正街18号
(72)发明人 华璟 吴绍鑫 孙杰
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 20/40(2022.01)
G06V 20/52(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/063(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种高性能行 人检索与重识别方法及装置
(57)摘要
本发明公开了一种高性能行人检索与重识
别方法及装置, 该方法包括: 分别获取单视角和
多视角现实监控场景下的行人数据, 对行人数据
进行数据标注, 其中单视角行人数据与COCO数据
集中的行人部分, 共同构建行人检测数据集, 多
视角行人数据构建行人重识别数据集; 利用行人
检测数据集基于Gho st轻量化模型改进的YOL Ov5
行人检测算法训练网络模型; 利用行人重识别数
据集训练得到行人重识别模型; 搭建行人搜索系
统。 本发明通过深度模型压缩和算法算力的协同
优化, 从算法到硬件的自上而下的方法来优化深
度学习的效率, 实现低代价高性能的行人重识别
系统。
权利要求书3页 说明书11页 附图5页
CN 115063831 A
2022.09.16
CN 115063831 A
1.一种高性能行 人检索与重识别方法, 其特 征在于, 包括以下步骤:
S1, 分别获取现实监控场景下的单视角行人数据和多视角行人数据, 其中, 采用单视角
行人数据和C OCO数据集中的行人部 分数据共同构建行人检测数据集, 多视角行人数据构建
行人重识别数据集;
S2, 利用S1中的行人检测数据 集, 基于Ghost轻量化模型改进的YOLOv5行人检测算法训
练行人检测模型;
S3, 利用S1中的行人重识别数据集训练通道级稀疏化剪枝后的行人重识别 网络, 得到
行人重识别模型;
S4, 利用S2中训练好的行人检测模型和S3中的行人重识别模型基于算丰SC5和云端AI
计算加速卡进行量 化部署, 搭建行 人搜索系统。
2.根据权利要求1所述的高性能行人检索与重识别方法, 其特征在于, 步骤S2中的行人
检测模型包括四种模块, 分别为输入端模块、 主干网络模块、 颈部网络模块和输出端模块,
输入为行 人检测数据集中一张图片;
图片首先通过输入端模块输入主干网络模块, 提取行人特征图像, 将行人特征图像送
入颈部网络模块, 颈部网络模块会增强行人检测模型对于不同缩放尺度行人特征图像的检
测, 将增强后的行人特征图像送入输出端, 输出端对行人特征图像进 行预测, 生成边界框和
预测行人特征图像中的类别。
3.根据权利要求2所述的高性 能行人检索与重识别方法, 其特征在于, 所述主干网络模
块包括三种模块, 分别为Focus子模块, CBL子模块, GhostCS P子模块;
所述Focus子模块对输入图片进行切片操作, 隔像素进行下采样操作, 所述CBL子模块
对输入图像进行卷积操作, 所述GhostCSP 子模块是使用Ghost网络进行替换而生 成的, 其中
步长为1的Ghost网络替换CSP结构中的残差组件, 步长为2的Ghost网络替换CSP结构中的卷
积层, 起到下采样的作用。
4.根据权利要求3所述的高性 能行人检索与重识别方法, 其特征在于, 所述颈部网络模
块对所述主干网络模块提取的行人特征图像进行多次特征提取, 生成8, 16, 32尺度的行人
特征图像, 基于8, 16, 32尺度的行人特征图像进行损失计算, 得到损失值, 行人检测模型根
据损失值训练更新, 得到训练好的增强行 人检测模型。
5.根据权利要求1所述的高性能行人检索与重识别方法, 其特征在于, 所述步骤S3 中的
行人重识别网络包括ResNet5 0网络和BN Neck模块, 输入为行 人重识别数据集中一张图片;
对输入图片, 采用随机裁剪为不同的大小和宽高比, 缩放为同一大小, 并采用随机擦
除, 使用一个布满随机值的矩形框对图片进行遮挡, 以此来得到增强图像;
将增强图像输入到ResNet50网络中, ResNet50网络以ImageNet数据集进行模型预训
练, 提取行人图像特 征, 对提取 特征进行全局池化, 得到行 人全局特 征Fglobal;
所述BNNeck模块将行人重识别损失分离到两个不同的特征空间中优化, 完成一次学
习。
6.根据权利要求5所述的高性能行人检索与重识别方法, 其特征在于, 所述步骤S3 中的
行人重识别网络的损失函数L oss为:权 利 要 求 书 1/3 页
2
CN 115063831 A
2其中: n为样本数量, xi是输入图像, yi是其类别标签, p(yi|xi)表示经过softmax分类, xi
被识别为yi的预测概率; dp是同类图像和输入图像的距离, dn是不同类图像和输入图像的距
离, α和β 是平衡损失的超参数, max( ·)为取最大距离;
表示全连接层 之前的特征,
表
示第yi个 类别的特 征中心,
为L2范数。
7.根据权利 要求5所述的高性能行人检索与重识别方法, 其特征在于, 所述ResNet50 网
络采用通道级稀疏化剪枝方法进 行处理, 对每个通道引入缩放因子α, 先通过正常的网络训
练学习连通性, 训练过程中稀疏化正则化这些比例因子, 自动识别通道的重要性, 最 终对训
练得到的缩放因子较低的通道进行修剪 。
8.根据权利要求1所述的高性 能行人检索与重识别方法, 其特征在于, 所述行人重识别
模型剪枝的目标函数如下:
其中(x, y)是训练输入和目标, 第一项整体表示为未修剪 网络的原始损失函数, 第二项
是缩放因子上的惩罚项, A代表网络中可训练的参数, α是缩放因子, β 是两项的平衡因子,
|·|为L1范数。
9.根据权利要求1所述的高性能行人检索与重识别方法, 其特征在于, 所述步骤S4具体
为:
S41, 选取步骤S1中构建的行人检测训练集3000张图片, 以及步骤S1中构 建的行人重识
别训练集15 00张图片, 分别转换成lmdb数据集, 供后续校准 量化使用;
S42, 使用BMNNSDK2 SDK工具, 将S2和S3中训练完成的行人检测模型和行人重识别模
型, 转换成fp32umodel文件和对应的prototxt文件, 其中fp32umodel是比特平台私有的格
式;
S43, 使用calibration_use_pb量化工具将步骤S42中转换后的fp32umodel转换成比特
私有的中间临时模型int8umodel, 以S41中的lmdb数据集作为量化校准, 其中int8umodel是
量化生成的int8格式的网络系数文件;
S44, 使用calibration可视化分析工具, 检查S43转换后的int8umodel网络误差, 使用
平均绝对百分比误差和余弦函数作为 误差评价标准, 定义如下:
权 利 要 求 书 2/3 页
3
CN 115063831 A
3
专利 一种高性能行人检索与重识别方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:01:05上传分享