(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211113425.4
(22)申请日 2022.09.14
(71)申请人 浙江工商大 学
地址 310018 浙江省杭州市下沙高教园区
学正街18号
(72)发明人 杨柏林 陈庆杰 宋超
(74)专利代理 机构 杭州奥创知识产权代理有限
公司 33272
专利代理师 王佳健
(51)Int.Cl.
G06V 10/44(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/77(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于深度学习的无监督单目图像深度
估计方法
(57)摘要
本发明公开了一种基于深度学习的无监督
单目图像深度估计方法, 首先使用编码器实现局
部特征信息和全局特征信息的融合, 并在所有不
同阶段生成的具有相同尺度的特征进行特征融
合。 其次在解码器中引入拉普拉斯金字塔, 用于
提取输入图像的边界特征并加入模 型中; 并在解
码器中使用特征再结合模块, 丰富输出的深度特
征。 然后使用不同的上采样算法恢复不同区域的
深度信息, 并在训练中加入新的边界损失。 最后
对模型进行训练, 并使用已经训练完成的模型对
测试集进行预测得到最终的深度图。 本发明有效
的改善了光度损失产生过平滑效果而导致的边
界模糊问题, 并且提高了预测深度图的准确性。
权利要求书2页 说明书9页 附图3页
CN 115546505 A
2022.12.30
CN 115546505 A
1.一种基于深度学习的无监 督单目图像深度估计方法, 其特 征在于包括以下步骤:
步骤1, 对图像数据集进行 预处理, 并划分为训练集、 验证集和 测试集;
步骤2, 使用HRFormer编码器, 在所有不同阶段生成的, 具有相同尺度的特征进行特征
融合, 构建出多尺度特 征模块;
步骤3, 在解码器中引入拉普拉斯金字塔, 强化网络学习边界信息;
步骤3.1, 在解码器中引入拉普拉斯金字塔, 取步骤2的输入图像进行多次下采样操作,
得到五个图像, 其大小分别为输入图像大小的1/2倍、 1/4 倍、 1/8倍、 1/16倍和1/ 32倍;
然后将1/32倍的图像进行多次上采样操作, 得到五个图像, 其大小分别为输入图像大
小的1/16倍、 1/8倍、 1/4 倍、 1/2倍和1倍;
将上述由下采样得到1/16倍、 1/8倍、 1/4倍、 1/2倍的图像和输入图像, 与上采样得到五
个图像进行相减, 得到五个拉普拉斯金字塔残差块, 即边界特 征;
步骤3.2, 将步骤2编码器输出的多分辨率特征图中通道数最大的特征图, 嵌入空洞空
间金字塔池化模块, 再 执行1x1卷积;
步骤3.3, 将步骤3.2得到的多分辨率特征图进行上采样操作, 然后与上一层特征图、 相
同分辨率大小的边界特征, 在通道维度上进 行拼接, 并通过通道注意力模块和卷积操作, 得
到增强后的特征图; 将增强后的特征图, 再次作为步骤3.3的输入, 重复此过程, 得到五个增
强后的特 征图;
步骤4, 在解码器中使用特征再结合模块; 即对步骤3.3中得到的五个增强后的特征图,
进行特征图间通道维度上 的拼接, 并且加入分辨率一致的边界特征, 重复这个过程得到四
个深度增强后的特 征图;
步骤5, 使用不同的上采样算法恢复不同区域的深度信息;
步骤5.1, 对步骤4中得到的四个深度增强后的特征图和步骤3.3中得到的通道数最大
的特征图, 分别通过一个3x3卷积将通道维度变为一维; 将步骤3.1得到边界特征在通道维
度执行平均化, 得到一 维边界特征; 把上述通道数通过3x3卷积 变为一维的特征图通过反卷
积, 使特征图的分辨 率变为原来的两倍;
将上述在分辨率上相同的三种一维特征图进行相加, 通过sigmoid激活函数激活得到
四个不同分辨 率的视差图;
步骤6, 利用拉普拉斯金字塔提取的高频信息, 在训练中加入新的边界损失;
步骤6.1, 在解码器 中, 使用步骤3.1中获得的拉普拉斯金字塔残差块; 首先将这些残差
块的分辨率缩放到模型输入图像的分辨率大小, 其次在通道维度上选择像素值最大的像素
点作为新的残差块; 最后对它进行平均得到一个平均值, 并使用鉴别器再进一步选择大于
平均值的像素值作为高频信息即边界信息;
步骤6.2, 将高频信息像素点标记为1其 余为0, 得到一个二进制掩码映射M, M∈[0,1];
使用berhu损失进行边界信息的训练, 得到一个边界损失函数, 其公式如下:
其中, M是高频信息的二进制掩码, It是目标帧, It′是合成帧, c是一批视图之间最大的
绝对差值的20%; 结合了新的边界损失的总损失如下 所示:权 利 要 求 书 1/2 页
2
CN 115546505 A
2L= μ[min(Lphot(It,It′)+λLb)]+λ2Lsm
其中, μ[·]是过滤不恰当像素的自动掩蔽, min( ·)是取最小重投影损失, Lsm是边缘感
知平滑损失函数, Lphot是光度损失函数, λ是边界损失项的权 重, λ2是平滑正则化项的权 重;
步骤7, 对 模型进行训练, 并使用已经训练完成的模型对测试集进行 预测, 得到深度图。
2.根据权利要求1所述的一种基于深度学习的无监督单目图像深度估计方法, 其特征
在于: 步骤2具体过程如下:
步骤2.1, 对输入图像, 进行两次卷积、 归一化和Relu激活函数的操作得到第一阶段的
多分辨率特征图, 然后传入残差块中, 再进行分流操作, 生成两个新特征图, 分辨率分别为
输入图像的1/4和1/8;
步骤2.2, 将步骤2.1所得的两个新特征图作为输入X, 划分成一组不重叠的窗口, X →
{X1,X2,...,XP}, 每个窗口的边长为K, 大小为K ×K;
在每个窗口内独立执 行多头自注意力, 聚合信息, 得到多个不同分辨 率的特征图;
步骤2.3, 将步骤2.2得到的多个不同分辨率的特征图通过卷积多尺度融合模块反复交
换, 并进行相互拼接, 得到第二阶段的多分辨 率特征图;
之后将第二阶段的输出作为步骤2.2的输入, 重复步骤2.3的操作, 得到第三阶段的多
分辨率特征图; 再次将第三阶段的输出作为步骤2.2的输入, 重复步骤2.3的操作, 得到第四
阶段的多分辨 率特征图;
步骤2.4, 将各阶段所生成的多分辨率特征图, 按照分辨率大小在通道维度上进行拼接
组合, 作为编码器的输出。
3.根据权利要求2所述的一种基于深度学习的无监督单目图像深度估计方法, 其特征
在于: 步骤2.4中的输出还包括步骤2.1中进行了一次卷积的特征图, 其分辨率为输入图像
的1/2。
4.根据权利要求1所述的一种基于深度学习的无监督单目图像深度估计方法, 其特征
在于: 步骤7 具体过程如下:
步骤7.1, 对模型使用训练集、 验证集和步骤6.2中总损失函数, 并利用Adam优化器进行
训练;
步骤7.2, 对已经训练完成的模型, 使用测试集估计其图像的深度;
首先模型输出测试图像的视差图, 即深度的倒数, 通过取视差图的倒数, 得到一个被缩
放的深度图;
其次通过测试图像的深度图的像素值中位数, 与模型预测得到的深度图的像素值中位
数进行相除, 得到一个缩放因子;
将缩放因子乘于模型 预测得到的深度图, 得到最终可用的深度图。权 利 要 求 书 2/2 页
3
CN 115546505 A
3
专利 一种基于深度学习的无监督单目图像深度估计方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:38:18上传分享