(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210782818.8
(22)申请日 2022.07.05
(71)申请人 中山大学·深圳
地址 518107 广东省深圳市光明新区光明
街道华夏路和润家园3 栋501
申请人 中山大学
(72)发明人 郭裕兰 管玮珺 李坤洪
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 梁嘉琦
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/587(2019.01)
G06V 10/77(2022.01)
G06V 10/82(2022.01)G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习的像素级跨视角图像定
位方法及系统
(57)摘要
本发明公开了一种基于深度学习的像素级
跨视角图像定位方法及系统, 方法包括: 获取待
定位目标的待定位图像以及待定位图像对应的
俯拍候选图像集合; 通过卷积神经网络对待定位
图像和俯拍候选图像集合进行图像特征提取, 得
到地面特征图和俯视特征图; 根据特征之间的特
征相似性, 计算待定位目标的目标地点概率分
布, 进而计算像素级定位坐标; 根据像素级定位
坐标, 结合俯拍候选图像集合的拍摄参数信息,
确定待定位目标的定位信息。 本发明的灵活性
高、 精度高且泛化能力高, 通过高分辨率的俯拍
特征和地面全局特征计算定位概率图, 进而 得到
地面图像的像素坐标, 最终转化为实际的地理坐
标, 可广泛应用于图像处 理技术领域。
权利要求书3页 说明书12页 附图2页
CN 115203460 A
2022.10.18
CN 115203460 A
1.一种基于深度学习的像素级跨视角图像定位方法, 其特 征在于, 包括:
获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集 合;
通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取, 得
到地面特征图和俯视特 征图;
根据所述地面特征图和所述俯视特征图之间的特征相似性, 计算待定位目标的目标地
点概率分布;
根据所述目标地 点概率分布计算像素级定位 坐标;
根据所述像素级定位坐标, 结合所述俯拍候选 图像集合的拍摄参数信息, 确定所述待
定位目标的定位信息 。
2.根据权利要求1所述的一种基于深度学习的像素级跨视角图像定位方法, 其特征在
于, 所述通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提
取, 得到地 面特征图和俯视特 征图这一步骤, 包括:
通过地面图像特 征提取网络对所述待定位图像进行图像特 征提取, 得到地 面特征图;
通过俯拍图像特征提取网络对所述俯拍候选图像集合进行图像特征提取, 得到俯视特
征图;
其中, 所述 地面图像特 征提取网络用于将地 面图像映射成一个高维特 征向量;
所述俯拍图像特征提取网络用于保持图像分辨率的同时聚合图像信 息, 生成保持空间
结构和空间分辨 率、 具有特异性的俯拍特 征图。
3.根据权利要求2所述的一种基于深度学习的像素级跨视角图像定位方法, 其特征在
于, 所述地面图像特征提取网络采用 “编码器‑解码器”的网络结构; 所述俯拍图像特征提取
网络采用“编码器‑解码器”的网络结构;
所述地面图像特征提取网络的编码器以VGG16网络为基础, 用于对图片信息进行解析;
所述地面图像特征提取网络的解码器使用浅层的卷积神经网络, 用于压缩 特征图的空间尺
寸从而得到特 征向量;
所述地面图像特征提取网络的编码器沿用VGG16网络的前十三层, 所述地面图像特征
提取网络的编 码器的池化层使用2x2的大小, 每经过一次池化层的处理后, 则图像的长和宽
均缩小一半, 经过所述地面图像特征提取网络的编码器的13层卷积层和池化层之后, 原图
像的通道数为512个;
所述地面图像特征提取网络的解码器使用浅层的卷积神经网络, 网络的前两层用于缩
小特征图像的大小和通道数, 网络的第三层沿空间方向做全局平均池化, 生 成1x1x128的特
征向量, 用于在后面跟俯视图像的高分辨 率稠密特 征的特征图做像素级的相似度计算;
所述俯拍图像特征提取网络以U ‑net网络为基础, 所述俯拍图像特征提取网络的处理
过程包括下采样过程和上采样过程, 其中, 所述下采样过程用于提取图像特征, 所述上采样
过程用于将包含高级抽象特征低分辨率的图片在保留高级抽象特征的同时变为高分辨率,
然后再与低级表层特征高分辨率图片进行特征融合操作, 从而得到保持原分辨率的特征
图;
所述俯拍图像特征提取网络的下采样过程由编码器的一个卷积块和两个下采样模块
实现, 每个下采样模块包含两个3x3的卷积层和一个2x2的池化层, 下采样模块用于进行特
征提取, 进而获取局部特征, 并进行图片级分类, 得到抽象语义特征; 图像在经过下采样之权 利 要 求 书 1/3 页
2
CN 115203460 A
2后图像的长和宽均变为原来的1/4, 通道数为512;
所述俯拍图像特征提取网络的上采样过程由解码器的一层反卷积、 特征拼接和两个
3x3的卷积层实现, 每一次上采样 操作的过程中, 图像的长 宽均变为原来的两倍;
所述上采样操作 得到的图像与 下采样的图像进行拼接处理后, 经由一个1 ×1的卷积层
进行降维处 理, 将通道数降低至128, 得到原 始分辨率下的俯视图像特 征图。
4.根据权利要求1所述的一种基于深度学习的像素级跨视角图像定位方法, 其特征在
于, 所述根据所述地面特征图和所述俯视特征图之间的特征相似性, 计算待定位 目标的目
标地点概率分布, 包括:
通过余弦相似度的计算方法逐一计算所述地面特征图和所述俯视特征图之间各个像
素点的相似度, 得到初始响应图;
将所述初始响应图乘以预设的温度系数后, 通过softmax函数进行处理, 得到各个地点
的概率图, 进而确定所述待定位目标的目标地 点概率分布;
其中, 所述 地面特征图和所述俯视特 征图的通道数相同。
5.根据权利要求4所述的一种基于深度学习的像素级跨视角图像定位方法, 其特征在
于, 所述方法还包括: 得到所述像素级定位坐标后, 通过损失函数计算各个坐标的损失值,
当损失值满足预设条件时, 确定网络训练完成;
其中, 所述损失值的计算公式为:
其中, loss(x,y)表示与(x,y)坐标有关的函数式; x1代表实际定位坐标x轴坐标; x2代表
预测定位 坐标x轴坐标; y1代表实际定位 坐标y轴坐标; y2代表预测定位 坐标y轴坐标。
6.根据权利要求1所述的一种基于深度学习的像素级跨视角图像定位方法, 其特征在
于, 所述根据所述 目标地点概率分布计算像素级定位坐标这一步骤中, 所述像素级定位坐
标的计算公式为:
其中, r为地球半径; (lat1,lon1)代表俯视图中心点的经纬度; (lat2,lon2)代表网络
预测位置的经纬度。
7.一种基于深度学习的像素级跨视角图像定位系统, 其特 征在于, 包括:
第一模块, 用于获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图
像集合;
第二模块, 用于通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图
像特征提取, 得到地 面特征图和俯视特 征图;
第三模块, 用于根据所述地面特征图和所述俯视特征图之间的特征相似性, 计算待定
位目标的目标地 点概率分布;
第四模块, 用于根据所述目标地 点概率分布计算像素级定位 坐标;
第五模块, 用于根据所述像素级定位坐标, 结合所述俯拍候选 图像集合的拍摄参数信
息, 确定所述待定位目标的定位信息 。
8.一种电子设备, 其特 征在于, 包括处 理器以及存 储器;权 利 要 求 书 2/3 页
3
CN 115203460 A
3
专利 一种基于深度学习的像素级跨视角图像定位方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:55上传分享