(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210959545.X
(22)申请日 2022.08.11
(71)申请人 南京信息 工程大学
地址 224002 江苏省盐城市 盐南高新区新
河街道文港南路10 5号
(72)发明人 胡高杰 刘光灿
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 刘艳艳
(51)Int.Cl.
G06T 7/50(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/42(2022.01)
G06V 10/44(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于全局与局部特征的图像深度估计
方法及装置
(57)摘要
本发明公开了一种基于全局与局部特征的
图像深度估计方法及装置, 包 括: 1) 数据预处理;
2) 提取输入图像中的全局特征与局部 特征; 3) 融
合全局特征与局部特征; 4) 解码预测。 本发明方
法引入了一种新的仅用于深度估计任务的数据
增强方法, 能够使得模型在编码阶段既可以提取
彩色图像的全局特征, 也可 以提取局部特征, 以
及在解码阶段利用我们设计的融合模块结合不
同特征的同时预估稠密的、 高质量的深度图, 并
且在额外的数据集上表现出了更强的泛化 性能。
权利要求书3页 说明书10页 附图3页
CN 115272437 A
2022.11.01
CN 115272437 A
1.一种基于全局与局部特 征的图像深度估计方法, 其特 征在于, 所述方法包括:
获取待估计的彩色图像;
对所述彩色图像进行 数据预处 理, 得到输入图像I nputRGB;
提取输入图像InputRGB中的全局特征与局部特征: 利用SwinTransformer ‑T模块提取
输入图像I nputRGB的全局特 征, 利用Co nvNeXt‑S模块提取输入图像I nputRGB的局部特 征;
将提取得到的全局特 征与局部特 征进行融合, 得到融合特 征向量;
将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre, 对绝
对深度图Depth_pre采用镜像预测得到预测深度图Depth_fi nal, 作为图像深度估计结果。
2.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 所述
数据预处 理包括: 利用CutDepth ‑Mask数据增强方法作数据预处 理;
还包括: 随机水平翻转、 随机 裁剪、 随机明亮度对比、 随机g ama正则分布、 随机 饱和度。
3.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 利用
SwinTransformer ‑T模块提取输入图像I nputRGB的全局特 征, 包括:
将输入图像InputRGB作为SwinTransformer ‑T模块的输入, 利用一个卷积层将 四维输
入变量B x 3 x H x W展平成一个三维变量B x P x C, 卷积核个数: C x 3, 大小: 7, 步长:
4, 填充: 2, 过程按如下公式所示:
式中,
输入图像I经过第i个卷积层生成的特征向量;
第i个卷积核的权
重参数;
第i个卷积核的偏置参数; *: 卷积运 算; i的最大值 为C;
将三维变量Iemb送入到由4个自注意力层以及3个下采样层组成的全局特征提取模块进
行编码, 自注意力层由多个线性层和不同的激活函数组成, 下采样层则由一个大小为3, 步
长为2的卷积层组成; 自注意力层的过程按如下公式所示:
Q=(Iemb·Wq+bq)
K=(Iemb·Wk+bk)
V=(Iemb·Wv+bv)
式中Q、 K、 V为3个线性函数; Wq、 Wk、 Wv分别表示 q、 k、 v三个线性层的权重参数; bq、 bk、 bv分
别表示q、 k、 v三个线性层的偏置参数; softmax表示 logistic回归函数, 公式如下 所示:
d: 特征向量K的维度; Gi: 第i个自注意力层输出的全局特征向量;
第i个自注意力
层第1个线性层的权重参数;
第i个自注意力层第1个线性层的偏置参数;
第i个自权 利 要 求 书 1/3 页
2
CN 115272437 A
2注意力层第2个线性层的权重参数;
第i个自注意力层第2个线性层的偏置参数; ·表示
矩阵乘法, T表示 转置矩阵;
SwinTransformer ‑T模块输出4个不同分尺度的全局特征向量G1、 G2、 G3、 G4, 分别为输入
图像InputRGB尺寸的
4.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 利用
ConvNeXt‑S模块提取输入图像I nputRGB的局部特 征, 包括:
将输入图像InputRGB作为ConvNeXt ‑S模块的输入, 通过四层卷积块与四个下采样层组
成的模块对Inp utRGB进行编码, 其中每一个卷积块均由1个7x7大小的卷积核与2个1x1大小
的卷积核串联构成, 分别输出4个不同尺度的局部特征向量L1、 L2、 L3、 L4, 分别为输入图像
InputRGB尺寸的
5.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 将提
取得到的全局特 征与局部特 征进行融合, 包括:
将局部特征L1、 L2、 L3、 L4与全局特征G1、 G2、 G3、 G4输入融合模块进行融合, 获得融合特征
向量M1、 M2、 M3、 M4:
式中: concat: 拼接; dim: 拼接的维度; Maxpool: 最大池化, 大小为3, 步长为1, 填充为1;
Avgpool: 均值池化, 大小 为3, 步长为1, 填充为1; Conv: 卷积, 大小为3, 步长为1, 填充为1; i:
第i个特征向量,
为中间参数。
6.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 将融
合特征向量解码恢复到 输入图像I nputRGB尺寸得到绝对深度图Depth_pre, 包括:
对融合特征向量M1、 M2、 M3、 M4进行合并, 得到合并后的融合特征向量Y1、 Y2、 Y3: 使用两个
连续的卷积连接邻近的融合特 征Mi、 Mi+1:
Y1=Conv(Conv(concat(bilinear(M1),M2,dim=1) ))
Y2=Conv(Conv(concat(bilinear(Y1),M3,dim=1) ))
Y3=Conv(Conv(concat(bilinear(Y2),M4,dim=1) ))
式中, bilinear: 双线性插值, 缩放比例2; dim: 拼接的维度; concat: 拼接; Conv: 卷积,
Yi: 每一次缩放 合并后的特 征图;
将Y3缩放为输入图像InputRGB一半的分辨率, 缩放函数: Bilinear; 利用卷积网络增强
网络的拟合能力, 最后再利用Sigmoi d归一化, 得到归一化后的Depth_pre_norm; 过程如下
公式所示:
Depth_pre_n orm=Sigmo id(Conv(bilinear(Y3)))
将归一化后的D epth_pre_norm与预设的最大深度值max_depth相乘后采取双线性插值
算法恢复到 输入图像I nputRGB尺寸, 得到绝对深度图Depth_pre。
7.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 对绝权 利 要 求 书 2/3 页
3
CN 115272437 A
3
专利 一种基于全局与局部特征的图像深度估计方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:37:32上传分享