(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211376018.2 (22)申请日 2022.11.04 (71)申请人 华东交通大 学 地址 330000 江西省南昌市经济技 术开发 区双港东大街808号 (72)发明人 王辉 韩星宇 范自柱 杨辉  (74)专利代理 机构 北京中济纬天专利代理有限 公司 11429 专利代理师 黄攀 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/75(2022.01) G06V 10/766(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于Transformer的孪生多模态目标跟踪方 法 (57)摘要 本发明提出一种基于Transformer的孪生多 模态目标跟踪方法, 获取场景中的RGB图像信息 和热力图像信息; 通过预训练的ResNet网络提取 不同模态的高级特征, 同时基于孪生网络的跨模 态特征融合网络以获得不同模态的共同特征; 然 后将对应模态的高级特征输入到针对多模态设 计的Transformer模块中进行跨模态信息融合, 再输入到基于全连接卷积神经网络的回归网络 中进行最终检测框的回归, 在此过程中产生的误 差将会反向传播到前序各个网络中, 根据最终权 重网络构建目标跟踪网络, 以对多模态情况下的 目标进行跟踪。 本发明可准确预测物体在各模态 的位置信息, 提高目标跟踪与定位准确度, 可广 泛应用于多种场景。 权利要求书4页 说明书6页 附图2页 CN 115423847 A 2022.12.02 CN 115423847 A 1.一种基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 所述方法包括如 下 步骤: 步骤一、 通过摄 像头与热成像装置采集当前场景 下的RGB图像信息与热力图像信息; 步骤二、 利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别 进行特征提取以对应得到RGB图像特征与热力图像特征; 基于线性假设的方法将RGB图像信 息与热力图像信息进行对齐, 使用基于ResNet的孪生网络对RGB图像信息与热力图像信息 共同进行 特征提取以得到RGB ‑热力图像特 征; 步骤三、 利用基于Transformer编码器的特征融合网络, 将所述RGB图像特征、 热力图像 特征以及RGB ‑热力图像特 征两两配合进行复合编码以得到编码后的特 征图; 步骤四、 将所述编码后的特征 图输入至基于Transformer的特征匹配网络中进行扩充 与匹配, 以得到模板特征图与背景特征图的匹配结果, 并利用基于循环 窗口注意力的匹配 机制对所述模板特 征图与背景 特征图的匹配结果进行扩充再匹配以得到第一特 征图; 步骤五、 将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回 归, 并基于设计的损失函数返回误差计算 值并进行反向传播; 步骤六、 通过快速梯度 下降法确认当前回归框的损失, 当回归框损失最小时, 结束训练 并输出各网络权重文件; 步骤七、 根据最终得到的各网络权重文件, 构建多模态目标跟踪器并实时确定所跟踪 的目标在图像中的位置 。 2.根据权利要求1所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 所述ResNet特 征提取网络为ResNet5 0特征提取网络, 在所述 步骤二中, 所述方法还 包括: 利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据, 对RGB图像信息与 热力图像信息分别进行 特征提取; 根据设定图像大小与给定的第一帧框图数据, 对RGB图像信息中的RGB图像进行调整; 利用KL散度对所述ResNet5 0特征提取网络进行约束计算以得到当前输出的损失值; 根据当前输出的损失值计算得到整体网络对应的最终网络损失值, 其中所述整体网络 由ResNet特征提取网络、 基于ResNet的孪生网络、 基于Transformer编码器的特征融合网络 以及基于Transformer的特 征匹配网络组成。 3.根据权利要求2所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 对RGB图像信息中的RGB图像进行调整的步骤中, 对应的表达式为: 其中, 表示处理后的RGB图像的输出, 表示当前RGB图像的输入, 表 示当前热力图像的大小, 表示当前RGB图像的大小, 表示图像中心点的偏 移量; 利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的 步骤中, 对应的表达式为:权 利 要 求 书 1/4 页 2 CN 115423847 A 2其中, 表示当前输出的损失值, 表示输出特征向量的维度, 表示RGB图像经 过ResNet50特征提取网络所输出的特征向量中的第 列, 表示热力图像经过ResNet50特 征提取网络所输出的特 征向量中的第 列, 表示输出的特 征向量中的列数; 在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中, 整体网 络对应的最终网络损失值表示 为: 其中, 表示整体网络对应的最终网络损失值, 表示后续网络反向传播 回的损失值, 表示超参数。 4.根据权利要求3所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 在所述步骤三中, 将所述 RGB图像特征、 热力图像特征以及RGB ‑热力图像特征两两配合进 行 复合编码以得到编码后的特 征图的步骤中, 进行编码 操作对应的公式表示 为: 其中, 表示编码器的输出, 表示Softmax函数, 表示RGB图像经过 ResNet50特征提取网络的特征向量, 表示RGB图像, 表示热力图像, 表示热力图 像经过ResNet50特征提取网络的特征向量, 表示总特征向量的维数, 表示自然常数, 表示卷积 操作, 表示当前层的输入。 5.根据权利要求4所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 基于Transformer的特 征匹配网络对应的公式表示 为: 其中, 表示Transformer网络的输出, 表示Query向量生成网络 的输出, 表示Key向量生成网络的输出, 表示Value向量生成网络的输出, 表 示当前层的维度, 均表示第一类型可学习参数, 均表示第二类型权 利 要 求 书 2/4 页 3 CN 115423847 A 3

PDF文档 专利 基于Transformer的孪生多模态目标跟踪方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Transformer的孪生多模态目标跟踪方法 第 1 页 专利 基于Transformer的孪生多模态目标跟踪方法 第 2 页 专利 基于Transformer的孪生多模态目标跟踪方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。