(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211160065.3
(22)申请日 2022.09.22
(71)申请人 芜湖职业 技术学院
地址 241003 安徽省芜湖市文津西路201号
(72)发明人 单强达 曹玉娜 吕丹亚 李旭光
武轶文 黄高益
(74)专利代理 机构 北京风雅颂专利代理有限公
司 11403
专利代理师 方昊
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/44(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于分区 随机擦除和ViT的商场行人再
识别方法
(57)摘要
本发明涉及智能视频分析技术领域, 尤其涉
及一种基于分区随机擦除和ViT的商场行人再识
别方法, 使用分区随机擦除策略进行训练, 提高
了模型对遮挡场景的适应能力; 引入Vision
Transform中的Encoder模 块构建网络主干, 提高
了网络提取出的特征的鲁棒性, 在一定程度上削
弱了遮挡带来的性能影响; 使用标准的Encoder
模块进行网络构建, 使得网络结构更加整齐精
简; 同时联合全局特征和局部特征进行训练, 使
得模型捕获到更加丰富的特征信息, 有效提升了
模型方法的准确度。
权利要求书2页 说明书5页 附图3页
CN 115497119 A
2022.12.20
CN 115497119 A
1.一种基于分区随机擦除和ViT的商场行 人再识别方法, 其特 征在于, 包括以下步骤:
S1、 从商场行 人数据集中获取一个批次的图片;
S2、 设置分区随机擦除操作中涉及的相关参数, 对每张图片执 行分区随机擦除操作;
S3、 对执行擦除后的图像进行网格划分, 并将划分好的每 个子图展开 为一维向量;
S4、 构建若干个与Vision Transform结构一致的Encoder模块, 并将这些Encoder模块
进行串联, 对所有输入向量进行 特征提取与聚合;
S5、 采用联合损失函数对提取 出的特征向量进行训练;
S6、 获取行人视频, 对其进行逐帧划分, 对划分后的图像执行步骤S3和S4, 将生成的行
人身份特征向量与由商场行人数据集得到的特征向量进行比对, 根据匹配度确定行人身份
信息。
2.根据权利要求1所述的基于分区随机擦除和ViT的商场行人再识别方法, 其特征在
于, 分区随机擦除操作中涉及的相关参数包括图像执行擦除概率、 每个分区执行擦除的概
率阈值、 分区内擦除面积占比阈值、 擦除矩形区域的长 宽比阈值。
3.根据权利要求2所述的基于分区随机擦除和ViT的商场行人再识别方法, 其特征在
于, 步骤S2中分区随机擦除具体为:
S21、 设定图像擦除概率Pout、 垂直分区数量Parts、 分区内执行擦除的概率阈值Pin、 分
区内矩形擦除块与分区面积的比例阈值max_proportion和min_proportion、 分区内矩形擦
除块的长宽比阈值max_aspect和min_aspect; 其中Pin是一个长度为Parts ‑1的概率阈值数
列;
S22、 使用随机值生 成函数rand()生 成一个大小在0.0到1.0 之间的概率值, 如果此概率
值大于Pout, 执 行下一步操作, 否则擦除操作结束, 不执 行擦除;
S23、 根据Parts计算每个分区的面积, 并使用随机函数rand()生成一个大小在max_
proportion和min_proportion之间的随机值, 由此计算出将要执行擦除的矩形块面积Ta,
计算过程符合如下公式:
Ta=rand(mi n_propor tion,max_propor tion)*(img.h *img.w/Par ts)
其中img.h和img.w分别表示图片的长和宽;
S24、 根据指定的max_aspect和min_aspect计算矩形擦除块的长Hr和宽Wr, 计算公式如
下:
ratio=rand(mi n_aspect,max_aspect)
Hr=int(sqrt(Ta*rati o))
Wr=int(sqrt(Ta/rati o))
S25、 判断擦除块的长和宽是否均小于分区的长和宽, 如果不满足则重新从步骤S23开
始执行, 分区的长为 img.h/Parts, 分区的宽和img.w保持一 致;
S26、 使用随机函数rand()生 成一个在0.0到1.0之间的随机值t, 并结合Pin数列确定发
生擦除的分区, 将Pin数列中的值按顺序逐个与t进行大小比较, 直到t小于等于Pin[i], 确
定发生擦除的分区为第i个分区; 其中Pi n[i]表示Pi n数列中的第i个元 素;
S27、 根据擦除分区的位置和矩形擦除块进行擦除操作。
4.根据权利要求1所述的基于分区随机擦除和ViT的商场行人再识别方法, 其特征在
于, 步骤S3具体为:权 利 要 求 书 1/2 页
2
CN 115497119 A
2S31、 根据图片的尺寸H ×W将其划分为若干个尺寸为w ×h的子区域, 则子区域的个数为
n=(H×W)/(h×w);
S32、 将所有子区域堆叠, 得到的数据维度为n ×3×w×h, 其中3为图像的通道数目, 随
后将每个子区域展开 为一维向量, 得到数据维度为 n×3wh。
5.根据权利要求4所述的基于分区随机擦除和ViT的商场行人再识别方法, 其特征在
于, 步骤S3中的特 征提取与聚合具体为:
S41、 使用一个全连接层对步骤S32得到的数据向量进行线性变换, 并在此基础上增加
一条随机初始化的全局向量, 作为后续网络模型的数据输入;
S42、 串联若干个 基于Visi on Transform的Encoder模块对输入数据进行 特征提取;
S43、 将S42步骤得到的特征向量 中的第一条作 为最终的全局特征向量, 将步骤S42中倒
数第二个Encode模块生 成的特征向量的第一条剔除, 并将剩余的特征向量均匀划分为若干
部分, 并为每 个部分添加一条随机初始化的局部特 征向量;
S44、 通过独立的单个Encoder模块, 分别对S43步骤中划分出的每个部分进行特征提
取, 每个部分生成一条最终的局部特 征向量。
6.根据权利要求5所述的基于分区随机擦除和ViT的商场行人再识别方法, 其特征在
于, 步骤S5具体为:
S51、 采用联合损失函数对提取出的特征向量进行训练, 其中特征向量包括步骤S42中
得到的一条全局特 征向量和每 个部分对应局部特 征向量;
S52、 联合损失包 含ID损失和TriHard损失, 计算过程符合如下公式:
L=α LID+β LTriHard,( α, β ∈[0.0,1.0])
其中, L是整体的损失函数, LID是交叉熵损失函数,LTriHard是软边距三元组损失, P和K分
别表示一个训练批次中行人 的个数和 每个行人选取出的图片数量, N表示总行人个数, q表
示身份信息标签值, p表示身份信息预测 值, xa代表当前图片, P(a)和N(a)分别代表当前训
练批次中当前图片对应的正样本图片集和负样本图片集, Softplus(x)=ln(1+exp(x)), d
()表示距离函数。权 利 要 求 书 2/2 页
3
CN 115497119 A
3
专利 一种基于分区随机擦除和ViT的商场行人再识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:37:34上传分享