standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210959545.X (22)申请日 2022.08.11 (71)申请人 南京信息 工程大学 地址 224002 江苏省盐城市 盐南高新区新 河街道文港南路10 5号 (72)发明人 胡高杰 刘光灿  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 刘艳艳 (51)Int.Cl. G06T 7/50(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/42(2022.01) G06V 10/44(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于全局与局部特征的图像深度估计 方法及装置 (57)摘要 本发明公开了一种基于全局与局部特征的 图像深度估计方法及装置, 包 括: 1) 数据预处理; 2) 提取输入图像中的全局特征与局部 特征; 3) 融 合全局特征与局部特征; 4) 解码预测。 本发明方 法引入了一种新的仅用于深度估计任务的数据 增强方法, 能够使得模型在编码阶段既可以提取 彩色图像的全局特征, 也可 以提取局部特征, 以 及在解码阶段利用我们设计的融合模块结合不 同特征的同时预估稠密的、 高质量的深度图, 并 且在额外的数据集上表现出了更强的泛化 性能。 权利要求书3页 说明书10页 附图3页 CN 115272437 A 2022.11.01 CN 115272437 A 1.一种基于全局与局部特 征的图像深度估计方法, 其特 征在于, 所述方法包括: 获取待估计的彩色图像; 对所述彩色图像进行 数据预处 理, 得到输入图像I nputRGB; 提取输入图像InputRGB中的全局特征与局部特征: 利用SwinTransformer ‑T模块提取 输入图像I nputRGB的全局特 征, 利用Co nvNeXt‑S模块提取输入图像I nputRGB的局部特 征; 将提取得到的全局特 征与局部特 征进行融合, 得到融合特 征向量; 将融合特征向量解码恢复到输入图像InputRGB尺寸得到绝对深度图Depth_pre, 对绝 对深度图Depth_pre采用镜像预测得到预测深度图Depth_fi nal, 作为图像深度估计结果。 2.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 所述 数据预处 理包括: 利用CutDepth ‑Mask数据增强方法作数据预处 理; 还包括: 随机水平翻转、 随机 裁剪、 随机明亮度对比、 随机g ama正则分布、 随机 饱和度。 3.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 利用 SwinTransformer ‑T模块提取输入图像I nputRGB的全局特 征, 包括: 将输入图像InputRGB作为SwinTransformer ‑T模块的输入, 利用一个卷积层将 四维输 入变量B x 3 x H x W展平成一个三维变量B  x P x C, 卷积核个数: C  x 3, 大小: 7, 步长: 4, 填充: 2, 过程按如下公式所示: 式中, 输入图像I经过第i个卷积层生成的特征向量; 第i个卷积核的权 重参数; 第i个卷积核的偏置参数; *: 卷积运 算; i的最大值 为C; 将三维变量Iemb送入到由4个自注意力层以及3个下采样层组成的全局特征提取模块进 行编码, 自注意力层由多个线性层和不同的激活函数组成, 下采样层则由一个大小为3, 步 长为2的卷积层组成; 自注意力层的过程按如下公式所示: Q=(Iemb·Wq+bq) K=(Iemb·Wk+bk) V=(Iemb·Wv+bv) 式中Q、 K、 V为3个线性函数; Wq、 Wk、 Wv分别表示 q、 k、 v三个线性层的权重参数; bq、 bk、 bv分 别表示q、 k、 v三个线性层的偏置参数; softmax表示 logistic回归函数, 公式如下 所示: d: 特征向量K的维度; Gi: 第i个自注意力层输出的全局特征向量; 第i个自注意力 层第1个线性层的权重参数; 第i个自注意力层第1个线性层的偏置参数; 第i个自权 利 要 求 书 1/3 页 2 CN 115272437 A 2注意力层第2个线性层的权重参数; 第i个自注意力层第2个线性层的偏置参数; ·表示 矩阵乘法, T表示 转置矩阵; SwinTransformer ‑T模块输出4个不同分尺度的全局特征向量G1、 G2、 G3、 G4, 分别为输入 图像InputRGB尺寸的 4.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 利用 ConvNeXt‑S模块提取输入图像I nputRGB的局部特 征, 包括: 将输入图像InputRGB作为ConvNeXt ‑S模块的输入, 通过四层卷积块与四个下采样层组 成的模块对Inp utRGB进行编码, 其中每一个卷积块均由1个7x7大小的卷积核与2个1x1大小 的卷积核串联构成, 分别输出4个不同尺度的局部特征向量L1、 L2、 L3、 L4, 分别为输入图像 InputRGB尺寸的 5.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 将提 取得到的全局特 征与局部特 征进行融合, 包括: 将局部特征L1、 L2、 L3、 L4与全局特征G1、 G2、 G3、 G4输入融合模块进行融合, 获得融合特征 向量M1、 M2、 M3、 M4: 式中: concat: 拼接; dim: 拼接的维度; Maxpool: 最大池化, 大小为3, 步长为1, 填充为1; Avgpool: 均值池化, 大小 为3, 步长为1, 填充为1; Conv: 卷积, 大小为3, 步长为1, 填充为1; i: 第i个特征向量, 为中间参数。 6.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 将融 合特征向量解码恢复到 输入图像I nputRGB尺寸得到绝对深度图Depth_pre, 包括: 对融合特征向量M1、 M2、 M3、 M4进行合并, 得到合并后的融合特征向量Y1、 Y2、 Y3: 使用两个 连续的卷积连接邻近的融合特 征Mi、 Mi+1: Y1=Conv(Conv(concat(bilinear(M1),M2,dim=1) )) Y2=Conv(Conv(concat(bilinear(Y1),M3,dim=1) )) Y3=Conv(Conv(concat(bilinear(Y2),M4,dim=1) )) 式中, bilinear: 双线性插值, 缩放比例2; dim: 拼接的维度; concat: 拼接; Conv: 卷积, Yi: 每一次缩放 合并后的特 征图; 将Y3缩放为输入图像InputRGB一半的分辨率, 缩放函数: Bilinear; 利用卷积网络增强 网络的拟合能力, 最后再利用Sigmoi d归一化, 得到归一化后的Depth_pre_norm; 过程如下 公式所示: Depth_pre_n orm=Sigmo id(Conv(bilinear(Y3))) 将归一化后的D epth_pre_norm与预设的最大深度值max_depth相乘后采取双线性插值 算法恢复到 输入图像I nputRGB尺寸, 得到绝对深度图Depth_pre。 7.根据权利要求1所述的基于全局与局部特征的图像深度估计方法, 其特征在于, 对绝权 利 要 求 书 2/3 页 3 CN 115272437 A 3

.PDF文档 专利 一种基于全局与局部特征的图像深度估计方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于全局与局部特征的图像深度估计方法及装置 第 1 页 专利 一种基于全局与局部特征的图像深度估计方法及装置 第 2 页 专利 一种基于全局与局部特征的图像深度估计方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:37:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。