专利 一种基于俯视投射的多目标跟踪网络构建方法及装置

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210826068.X (22)申请日 2022.07.14 (65)同一申请的已公布的文献号申请公布号 CN 114913209 A (43)申请公布日 2022.08.16 (73)专利权人南京后摩智能科技有限公司地址 210046 江苏省南京市经济技术开发区兴智科技园B栋第6层专利权人江苏祥泰电力实业有限公司　国网江苏省电力有限公司泰州供电分公司 (72)发明人李勇　戴亮　戴红波　苏进和　张少成　耿阳　张维　郭志峰　汤青　王浩　郭旋　束长勇　(74)专利代理机构北京市隆安律师事务所 11323 专利代理师杨云 (51)Int.Cl. G06T 7/246(2017.01) G06T 3/00(2006.01) G06V 10/80(2022.01) 审查员丁娇 (54)发明名称一种基于俯视投射的多目标跟踪网络构建方法及装置 (57)摘要本发明公开了一种基于俯视投射的多目标跟踪网络构建方法及装置，方法包括如下步骤：采集连续多个时间帧的训练图像组，每帧训练图像组均包括相同的多个目标，并标注各个目标的类别、中心点坐标、标注框宽高及空间信息，得到多目标跟踪数据集；构建多目标跟踪的初始网络，包括主干网、俯视编码器及空间解码器；根据多目标跟踪数据集对初始网络进行迭代训练至收敛，得到基于俯视投射的多目标跟踪网络。本发明构建基于俯视投射的多目标跟踪网络，缓解克服当前以2D检测实现多目标跟踪时存在的重叠遮挡、精准度不高等问题，提升了多目标跟踪的能力。权利要求书3页说明书7页附图2页 CN 114913209 B 2022.10.28 CN 114913209 B 1.一种基于俯视投射的多目标跟踪网络构建方法，其特征在于，包括如下步骤：采集连续多个时间帧的训练图像组，每帧训练图像组均包括相同的多个目标，并标注各个目标的类别、中心点坐标、标注框宽高及空间信息，得到多目标跟踪数据集；构建多目标跟踪的初始网络，包括主干网、俯视编码器及空间解码器；根据多目标跟踪数据集对初始网络进行迭代训练至收敛，得到基于俯视投射的多目标跟踪网络；其中，主干网用于在训练图像组中采样，形成特征图组；俯视编码器用于感知主干网特征图组中的空间信息，并与类别信息融合，俯视投射形成含有空间信息的特征矩阵；空间解码器用于根据时间帧对含有空间信息的特征矩阵解码处理，并更新对象查询变量；根据多目标跟踪数据集对初始网络进行迭代训练至收敛，具体包括： S1：选取多目标跟踪数据集中t帧的训练图像组，输入到主干网； S2：主干网采样，形成t帧的特征图组； S3：将t帧的特征图组输入俯视编码器，感知空间信息，并与类别信息融合，俯视投射形成含有空间信息的t帧特征矩阵； S4： t帧特征矩阵输入到空间解码器，并基于初始的对象查询变量，得到t帧的对象查询变量； S5：选取多目标跟踪数据集中t+1帧的训练图像组，重复如上S2 ‑S3步骤，得到t+1帧特征矩阵，将t+1帧特征矩阵和t帧的对象查询变量输入到空间解码器，得到t+1帧的对象查询变量； S6：基于t帧和t+1帧的对象查询变量计算损失，继续取后续时间帧重复以上S1 ‑S5步骤，直至收敛。 2.如权利要求1所述的构建方法，其特征在于，空间信息包括目标中心点在空间位置的坐标信息。 3.如权利要求1所述的构建方法，其特征在于，俯视编码器包括空间感知模块和投射模块， S3步骤具体包括：将t帧的特征图组输入空间感知模块，提取目标的空间特征，并融合类别特征，形成t帧目标特征图组；通过投射模块的俯视投射将t帧目标特征图组变换为伪点云；基于变换的伪点云，形成含有空间信息的t帧特征矩阵。 4.如权利要求3所述的构建方法，其特征在于，将t帧的特征图组输入空间感知模块，提取目标的空间特征，并融合类别特征，形成t帧目标特征图，具体包括：将t帧的特征图组输入空间感知模块，提取维度N*k*H/α*W/β 的类别特征，并通过卷积映射，得到N*D*H/α *W/β 的空间特征，其中， N为t帧的特征图组的数量， k为特征图的类别特征通道数， H为特征图的高度通道数， α 为特征图的高度通道数的压缩常数， W为特征图的宽度通道数， β 为特征图的宽度通道数的压缩常数， D为特征图的空间特征通道数；将类别特征与空间特征进行数组合并，形成含有空间信息N*(k+D)*H/α *W/β 的t帧目标特征图。 5.如权利要求3所述的构建方法，其特征在于，通过投射模块的俯视投射将t帧目标特征图变换为伪点云，具体包括：权　利　要　求　书 1/3 页 2 CN 114913209 B 2建立世界坐标系，设定世界坐标系下栅格的尺寸；依据预设的投射规则，将t帧目标特征图中像素点投射到世界坐标系的栅格中；对栅格中的目标特征进行分析处理，变换得到伪点云。 6.如权利要求5所述的构建方法，其特征在于，建立世界坐标系，设定世界坐标系下栅格的尺寸，具体包括：以训练图像组采集设备的中心点为中心，垂直向上作Z轴，建立世界坐标系；基于训练图像组采集设备探测范围的尺寸，以及设定单个栅格的尺寸，得到世界坐标系下的栅格的尺寸，尺寸计算公式如下： x*y=int(L/l)*i nt(W/w) 其中， x*y为世界坐标系下栅格尺寸， int为取整函数， L为训练图像组采集设备探测范围的长度， W为训练图像组采集设备探测范围的宽度， l为设定的单个栅格的长度， w为设定的单个栅格的宽度；对栅格中的目标特征进行分析处理，具体包括：统计同一栅格中容纳的像素点，求像素点的特征平均值，形成栅格特征值；栅格中像素点数量为零，则设定栅格特征值为零。 7.如权利要求1所述的构建方法，其特征在于， S6步骤，具体包括：比较t帧和t+1帧的对象查询变量，针对相邻帧的对象查询变量给出第一损失函数，针对相同帧的对象查询变量给出第二损失函数；基于后续时间帧，重复S1 ‑S5步骤，不断更新第一损失函数及第二损失函数；第一损失函数及第二损失函数均小于设定阈值时，完成收敛。 8.如权利要求7 所述的构建方法，其特征在于，第一损失函数的公式表示如下：第二损失函数公式如下：其中，为第一损失函数，为第二损失函数，为余弦计算，为对象查询变量，，为不同的目标标号。 9.一种实现如权利要求1 ‑8任一所述基于俯视投射的多目标跟踪网络构建方法的装置，其特征在于，包括：获取单元，用于采集连续多个时间帧的训练图像组，每帧训练图像组均包括相同的多个目标，并标注各个目标的类别、中心点坐标、标注框宽高及空间信息，得到多目标跟踪数据集；构建单元，用于构建多目标跟踪的初始网络，包括主干网、俯视编码器及空间解码器；其中，主干网用于在训练图像组中采样，形成特征图组；俯视编码器用于感知主干网特征图组中的空间信息，并与类别信息融合，俯视投射形成含有空间信息的特征矩阵；空间解码器用于根据时间帧对含有空间信息的特征矩阵解码处理，并更新对象查询变量；训练单元，用于根据多目标跟踪数据集对初始网络进行迭代训练至收敛，得到基于俯权　利　要　求　书 2/3 页 3 CN 114913209 B 3

专利 一种基于俯视投射的多目标跟踪网络构建方法及装置

专利一种基于俯视投射的多目标跟踪网络构建方法及装置