文库搜索
切换导航
首页
频道
联系我们
首页
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211376018.2 (22)申请日 2022.11.04 (71)申请人 华东交通大 学 地址 330000 江西省南昌市经济技 术开发 区双港东大街808号 (72)发明人 王辉 韩星宇 范自柱 杨辉 (74)专利代理 机构 北京中济纬天专利代理有限 公司 11429 专利代理师 黄攀 (51)Int.Cl. G06T 7/246(2017.01) G06V 10/75(2022.01) G06V 10/766(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于Transformer的孪生多模态目标跟踪方 法 (57)摘要 本发明提出一种基于Transformer的孪生多 模态目标跟踪方法, 获取场景中的RGB图像信息 和热力图像信息; 通过预训练的ResNet网络提取 不同模态的高级特征, 同时基于孪生网络的跨模 态特征融合网络以获得不同模态的共同特征; 然 后将对应模态的高级特征输入到针对多模态设 计的Transformer模块中进行跨模态信息融合, 再输入到基于全连接卷积神经网络的回归网络 中进行最终检测框的回归, 在此过程中产生的误 差将会反向传播到前序各个网络中, 根据最终权 重网络构建目标跟踪网络, 以对多模态情况下的 目标进行跟踪。 本发明可准确预测物体在各模态 的位置信息, 提高目标跟踪与定位准确度, 可广 泛应用于多种场景。 权利要求书4页 说明书6页 附图2页 CN 115423847 A 2022.12.02 CN 115423847 A 1.一种基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 所述方法包括如 下 步骤: 步骤一、 通过摄 像头与热成像装置采集当前场景 下的RGB图像信息与热力图像信息; 步骤二、 利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别 进行特征提取以对应得到RGB图像特征与热力图像特征; 基于线性假设的方法将RGB图像信 息与热力图像信息进行对齐, 使用基于ResNet的孪生网络对RGB图像信息与热力图像信息 共同进行 特征提取以得到RGB ‑热力图像特 征; 步骤三、 利用基于Transformer编码器的特征融合网络, 将所述RGB图像特征、 热力图像 特征以及RGB ‑热力图像特 征两两配合进行复合编码以得到编码后的特 征图; 步骤四、 将所述编码后的特征 图输入至基于Transformer的特征匹配网络中进行扩充 与匹配, 以得到模板特征图与背景特征图的匹配结果, 并利用基于循环 窗口注意力的匹配 机制对所述模板特 征图与背景 特征图的匹配结果进行扩充再匹配以得到第一特 征图; 步骤五、 将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回 归, 并基于设计的损失函数返回误差计算 值并进行反向传播; 步骤六、 通过快速梯度 下降法确认当前回归框的损失, 当回归框损失最小时, 结束训练 并输出各网络权重文件; 步骤七、 根据最终得到的各网络权重文件, 构建多模态目标跟踪器并实时确定所跟踪 的目标在图像中的位置 。 2.根据权利要求1所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 所述ResNet特 征提取网络为ResNet5 0特征提取网络, 在所述 步骤二中, 所述方法还 包括: 利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据, 对RGB图像信息与 热力图像信息分别进行 特征提取; 根据设定图像大小与给定的第一帧框图数据, 对RGB图像信息中的RGB图像进行调整; 利用KL散度对所述ResNet5 0特征提取网络进行约束计算以得到当前输出的损失值; 根据当前输出的损失值计算得到整体网络对应的最终网络损失值, 其中所述整体网络 由ResNet特征提取网络、 基于ResNet的孪生网络、 基于Transformer编码器的特征融合网络 以及基于Transformer的特 征匹配网络组成。 3.根据权利要求2所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 对RGB图像信息中的RGB图像进行调整的步骤中, 对应的表达式为: 其中, 表示处理后的RGB图像的输出, 表示当前RGB图像的输入, 表 示当前热力图像的大小, 表示当前RGB图像的大小, 表示图像中心点的偏 移量; 利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的 步骤中, 对应的表达式为:权 利 要 求 书 1/4 页 2 CN 115423847 A 2其中, 表示当前输出的损失值, 表示输出特征向量的维度, 表示RGB图像经 过ResNet50特征提取网络所输出的特征向量中的第 列, 表示热力图像经过ResNet50特 征提取网络所输出的特 征向量中的第 列, 表示输出的特 征向量中的列数; 在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中, 整体网 络对应的最终网络损失值表示 为: 其中, 表示整体网络对应的最终网络损失值, 表示后续网络反向传播 回的损失值, 表示超参数。 4.根据权利要求3所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 在所述步骤三中, 将所述 RGB图像特征、 热力图像特征以及RGB ‑热力图像特征两两配合进 行 复合编码以得到编码后的特 征图的步骤中, 进行编码 操作对应的公式表示 为: 其中, 表示编码器的输出, 表示Softmax函数, 表示RGB图像经过 ResNet50特征提取网络的特征向量, 表示RGB图像, 表示热力图像, 表示热力图 像经过ResNet50特征提取网络的特征向量, 表示总特征向量的维数, 表示自然常数, 表示卷积 操作, 表示当前层的输入。 5.根据权利要求4所述的基于Transformer的孪生多模态目标跟踪方法, 其特征在于, 基于Transformer的特 征匹配网络对应的公式表示 为: 其中, 表示Transformer网络的输出, 表示Query向量生成网络 的输出, 表示Key向量生成网络的输出, 表示Value向量生成网络的输出, 表 示当前层的维度, 均表示第一类型可学习参数, 均表示第二类型权 利 要 求 书 2/4 页 3 CN 115423847 A 3
专利 基于Transformer的孪生多模态目标跟踪方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:26:44
上传分享
举报
下载
原文档
(788.1 KB)
分享
友情链接
DB4401-T 42-2020 市政燃气管道安全评估规则 广州市.pdf
GB-T 27912-2011 金融服务 生物特征识别 安全框架.pdf
信通院 人工智能白皮书-2022年.pdf
WS-T 305-2009 卫生信息数据集元数据规范.pdf
GB-T 18959-2023 木材保管规程.pdf
GB-T 35678-2017 公共安全 人脸识别应用 图像技术要求.pdf
GB-T 6901-2017 硅质耐火材料化学分析方法.pdf
GB-T 27909.3-2011 银行业务 密钥管理(零售) 第3部分:非对称密码系统及其密钥管理和生命周期.pdf
野村深度报告 日本疫情后的消费复苏情况 2022.pdf
GB-T 42131-2022 人工智能 知识图谱技术框架.pdf
360 企业个人信息合规思路与实践报告 2021.pdf
中信证券 银行业财富管理深度研究系列第5期:银行财富管理的新趋势-2022.pdf
GB-T 2479-2022 普通磨料 白刚玉.pdf
中国评测 商用密码应用安全性评估白皮书(2021年).pdf
CISSP AIO-9 中文.pdf
GM-T 0013-2012 可信计算 可信密码模块符合性检测规范.pdf
GM-T 0054-2018 信息系统密码应用基本要求.pdf
GB 7231-2003 工业管道的基本识别色、识别符号和安全标识.pdf
GB-T 21141-2007 防沙治沙技术规范.pdf
GB-T 39772.2-2021 北斗地基增强系统基准站建设和验收技术规范 第2部分:验收规范.pdf
1
/
13
评价文档
赞助2元 点击下载(788.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。