(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210678356.5
(22)申请日 2022.06.16
(71)申请人 北京大学
地址 100871 北京市海淀区颐和园路5号
(72)发明人 胡景博 李祥泰 童云海
(74)专利代理 机构 北京万象新悦知识产权代理
有限公司 1 1360
专利代理师 黄凤茹
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 40/10(2022.01)
G06V 10/25(2022.01)
G06V 10/24(2022.01)
G06V 10/774(2022.01)
G06V 10/74(2022.01)G06V 10/77(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于稀疏检测的端到端的行人搜索方
法
(57)摘要
本发明公布了一种基于稀疏预测的端到端
的行人搜索方法, 构建行人搜索模型, 基于目标
检测模型设计行人重识别分支, 使用行人边界框
在特征金字塔网络中进行感兴趣区对齐操作, 得
到对应行人的固定大小的特征图, 再采用线性层
从特征图中抽取出用于行人重识别的特征; 且在
目标检测 中使用特征金字塔网络的所有输出特
征, 而在行人重识别中则只使用特征金字塔网络
中分辨率最高的最底层的输出特征, 使得行人搜
索效果达到最优; 利用训练图像数据集训练行人
搜索模型; 使用训练好的行人搜索模 型对待搜索
的图像进行行人搜索。 本发明方法流程简单、 方
法高效, 且行 人搜索实时性良好。
权利要求书2页 说明书8页 附图1页
CN 114973141 A
2022.08.30
CN 114973141 A
1.一种基于稀疏预测的端到端的行人搜索方法, 构建行人搜索模型, 基于目标检测模
型设计行人重识别分支, 使用行人边界框在特征金字塔网络中进行感兴趣区对齐操作, 得
到对应行人的固定大小的特征图, 再采用 线性层从特征图中抽取出用于行人重识别的特
征; 且在目标检测中使用特征金字塔网络的所有输出特征, 而在行人重识别中则只使用特
征金字塔网络中分辨率最高的最底层的输出特征, 使得行人搜索 效果达到最优; 利用训练
图像数据集训练行人搜索模型; 使用训练好的行人搜索模型对待搜索的图像进行行人搜
索; 包括如下步骤:
1)构建行 人搜索模型;
行人搜索模型的输入为图像, 模型输出为图像中每个行人的边界框和重识别特征; 构
建模型结构包括: 骨干网络、 特征金字塔网络、 检测分支和重识别分支; 重识别分支包含感
兴趣区对齐和线性层结构;
11)骨干网络用于从输入的图像中抽取 得到多层次的特 征图;
12)特征金字塔网络用于将特 征图进行进一 步的融合, 得到新的特 征图:
13)检测分支使用一组查询向量和查询框对特征图进行行人检测, 输出图像中每个行
人的边界框;
14)重识别分支根据 行人边界框从特征金字塔网络的输出特征中提取和输出用于重识
别的行人特征; 包括如下 过程:
141)首先, 对于特征金字塔网络输出的特征图的某层中的行人边界框进行感兴趣区对
齐操作, 得到对应于每个行人的固定尺寸的二维特征; 然后将二维特征拉平, 变成一维特
征; 再使用线性层压缩维度, 得到每 个行人在该层的重识别特 征;
142)扩展到多层特 征图:
在两层特征图上分别采用步骤141)的方法, 抽取出两层特征图相应的两个重识别特
征, 再将两个重识别特 征求和、 归一 化, 作为输出的重识别特 征;
2)利用训练图像数据集训练步骤1)构建的行人搜索模型, 采用在线实例匹配OIM作为
模型训练的损失函数;
训练行人搜索模型中的重识别分支时, 包括:
在模型训练的前半周期, 同时使用输入图像中真实标注的行人边界框和经模型检测分
支输出的行 人边界框训练重识别分支;
在模型训练的后半周期, 只使用检测分支输出的行人边界框作为重识别分支 的输入,
来训练重识别分支;
3)使用训练好的行 人搜索模型对待测搜索的图像进行 行人搜索, 包括:
31)通过行人搜索模型中的检测分支进行 行人检测:
32)使用行 人搜索模型中的独立的重识别分支进行 行人重识别特 征的抽取;
4)使用模型输出的行人边界框和行人重识别特征, 通过计算行人重识别特征之间的余
弦相似度, 判定相应的行 人边界框内是否为同一个行 人, 从而实现行 人搜索。
2.如权利要求1所述基于稀疏预测的端到端的行人搜索方法, 其特征是, 步骤1)中, 具
体是:
使用Swin Transformer作为骨干网络, 从输入的图像中抽取多层次的特征图, 得到的
特征图, 记为{F1,F2,F3,F4}。权 利 要 求 书 1/2 页
2
CN 114973141 A
23.如权利要求1所述基于稀疏预测的端到端的行人搜索方法, 其特征是, 将特征图{F1,
F2,F3,F4}在特征金字塔网络中进行融合, 得到与{F1,F2,F3,F4}尺寸相同的新的特征图,
记作{P1,P2,P3,P4}。
4.如权利要求3所述基于稀疏预测的端到端的行人搜索方法, 其特征是, 具体是使用
Sparse R‑CNN作为检测分支, 对特征图{ P1,P2,P3,P4}进行回归预测, 得出图像中的行人的
边界框; Sparse R‑CNN检测分支中每个查询向量和每个查询框一一对应; 查询向量和查询
框内的图像特征通过Sparse R‑CNN中的动态卷积进行 交互, 即使用查询框对应的图像特征
动态地生成卷积核, 再对每 个查询向量进行加权 。
5.如权利要求1所述基于稀疏预测的端到端的行人搜索方法, 其特征是, 步骤2)在训练
行人搜索模型中的重识别 分支时, 在前半周期 中, 具体是采用真实标注的边界框作为重识
别分支额外的输入, 即在每一步的训练中, 将检测分支输出 的预测框和真实标注的边界框
合并后输入到行 人重识别分支中, 得到行 人重识别特 征, 并计算损失。
6.如权利要求1所述基于稀疏预测的端到端的行人搜索方法, 其特征是, 具体是采用
Pytorch实现所述行 人搜索方法。
7.如权利要求6所述基于稀疏预测的端到端的行人搜索方法, 其特征是, 具体是使用开
源的检测框架M MDetecti on对构建的行 人搜索模型进行训练与测试。权 利 要 求 书 2/2 页
3
CN 114973141 A
3
专利 一种基于稀疏检测的端到端的行人搜索方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:58上传分享