standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211113425.4 (22)申请日 2022.09.14 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 杨柏林 陈庆杰 宋超  (74)专利代理 机构 杭州奥创知识产权代理有限 公司 33272 专利代理师 王佳健 (51)Int.Cl. G06V 10/44(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/77(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种基于深度学习的无监督单目图像深度 估计方法 (57)摘要 本发明公开了一种基于深度学习的无监督 单目图像深度估计方法, 首先使用编码器实现局 部特征信息和全局特征信息的融合, 并在所有不 同阶段生成的具有相同尺度的特征进行特征融 合。 其次在解码器中引入拉普拉斯金字塔, 用于 提取输入图像的边界特征并加入模 型中; 并在解 码器中使用特征再结合模块, 丰富输出的深度特 征。 然后使用不同的上采样算法恢复不同区域的 深度信息, 并在训练中加入新的边界损失。 最后 对模型进行训练, 并使用已经训练完成的模型对 测试集进行预测得到最终的深度图。 本发明有效 的改善了光度损失产生过平滑效果而导致的边 界模糊问题, 并且提高了预测深度图的准确性。 权利要求书2页 说明书9页 附图3页 CN 115546505 A 2022.12.30 CN 115546505 A 1.一种基于深度学习的无监 督单目图像深度估计方法, 其特 征在于包括以下步骤: 步骤1, 对图像数据集进行 预处理, 并划分为训练集、 验证集和 测试集; 步骤2, 使用HRFormer编码器, 在所有不同阶段生成的, 具有相同尺度的特征进行特征 融合, 构建出多尺度特 征模块; 步骤3, 在解码器中引入拉普拉斯金字塔, 强化网络学习边界信息; 步骤3.1, 在解码器中引入拉普拉斯金字塔, 取步骤2的输入图像进行多次下采样操作, 得到五个图像, 其大小分别为输入图像大小的1/2倍、 1/4 倍、 1/8倍、 1/16倍和1/ 32倍; 然后将1/32倍的图像进行多次上采样操作, 得到五个图像, 其大小分别为输入图像大 小的1/16倍、 1/8倍、 1/4 倍、 1/2倍和1倍; 将上述由下采样得到1/16倍、 1/8倍、 1/4倍、 1/2倍的图像和输入图像, 与上采样得到五 个图像进行相减, 得到五个拉普拉斯金字塔残差块, 即边界特 征; 步骤3.2, 将步骤2编码器输出的多分辨率特征图中通道数最大的特征图, 嵌入空洞空 间金字塔池化模块, 再 执行1x1卷积; 步骤3.3, 将步骤3.2得到的多分辨率特征图进行上采样操作, 然后与上一层特征图、 相 同分辨率大小的边界特征, 在通道维度上进 行拼接, 并通过通道注意力模块和卷积操作, 得 到增强后的特征图; 将增强后的特征图, 再次作为步骤3.3的输入, 重复此过程, 得到五个增 强后的特 征图; 步骤4, 在解码器中使用特征再结合模块; 即对步骤3.3中得到的五个增强后的特征图, 进行特征图间通道维度上 的拼接, 并且加入分辨率一致的边界特征, 重复这个过程得到四 个深度增强后的特 征图; 步骤5, 使用不同的上采样算法恢复不同区域的深度信息; 步骤5.1, 对步骤4中得到的四个深度增强后的特征图和步骤3.3中得到的通道数最大 的特征图, 分别通过一个3x3卷积将通道维度变为一维; 将步骤3.1得到边界特征在通道维 度执行平均化, 得到一 维边界特征; 把上述通道数通过3x3卷积 变为一维的特征图通过反卷 积, 使特征图的分辨 率变为原来的两倍; 将上述在分辨率上相同的三种一维特征图进行相加, 通过sigmoid激活函数激活得到 四个不同分辨 率的视差图; 步骤6, 利用拉普拉斯金字塔提取的高频信息, 在训练中加入新的边界损失; 步骤6.1, 在解码器 中, 使用步骤3.1中获得的拉普拉斯金字塔残差块; 首先将这些残差 块的分辨率缩放到模型输入图像的分辨率大小, 其次在通道维度上选择像素值最大的像素 点作为新的残差块; 最后对它进行平均得到一个平均值, 并使用鉴别器再进一步选择大于 平均值的像素值作为高频信息即边界信息; 步骤6.2, 将高频信息像素点标记为1其 余为0, 得到一个二进制掩码映射M, M∈[0,1]; 使用berhu损失进行边界信息的训练, 得到一个边界损失函数, 其公式如下: 其中, M是高频信息的二进制掩码, It是目标帧, It′是合成帧, c是一批视图之间最大的 绝对差值的20%; 结合了新的边界损失的总损失如下 所示:权 利 要 求 书 1/2 页 2 CN 115546505 A 2L= μ[min(Lphot(It,It′)+λLb)]+λ2Lsm 其中, μ[·]是过滤不恰当像素的自动掩蔽, min( ·)是取最小重投影损失, Lsm是边缘感 知平滑损失函数, Lphot是光度损失函数, λ是边界损失项的权 重, λ2是平滑正则化项的权 重; 步骤7, 对 模型进行训练, 并使用已经训练完成的模型对测试集进行 预测, 得到深度图。 2.根据权利要求1所述的一种基于深度学习的无监督单目图像深度估计方法, 其特征 在于: 步骤2具体过程如下: 步骤2.1, 对输入图像, 进行两次卷积、 归一化和Relu激活函数的操作得到第一阶段的 多分辨率特征图, 然后传入残差块中, 再进行分流操作, 生成两个新特征图, 分辨率分别为 输入图像的1/4和1/8; 步骤2.2, 将步骤2.1所得的两个新特征图作为输入X, 划分成一组不重叠的窗口, X → {X1,X2,...,XP}, 每个窗口的边长为K, 大小为K ×K; 在每个窗口内独立执 行多头自注意力, 聚合信息, 得到多个不同分辨 率的特征图; 步骤2.3, 将步骤2.2得到的多个不同分辨率的特征图通过卷积多尺度融合模块反复交 换, 并进行相互拼接, 得到第二阶段的多分辨 率特征图; 之后将第二阶段的输出作为步骤2.2的输入, 重复步骤2.3的操作, 得到第三阶段的多 分辨率特征图; 再次将第三阶段的输出作为步骤2.2的输入, 重复步骤2.3的操作, 得到第四 阶段的多分辨 率特征图; 步骤2.4, 将各阶段所生成的多分辨率特征图, 按照分辨率大小在通道维度上进行拼接 组合, 作为编码器的输出。 3.根据权利要求2所述的一种基于深度学习的无监督单目图像深度估计方法, 其特征 在于: 步骤2.4中的输出还包括步骤2.1中进行了一次卷积的特征图, 其分辨率为输入图像 的1/2。 4.根据权利要求1所述的一种基于深度学习的无监督单目图像深度估计方法, 其特征 在于: 步骤7 具体过程如下: 步骤7.1, 对模型使用训练集、 验证集和步骤6.2中总损失函数, 并利用Adam优化器进行 训练; 步骤7.2, 对已经训练完成的模型, 使用测试集估计其图像的深度; 首先模型输出测试图像的视差图, 即深度的倒数, 通过取视差图的倒数, 得到一个被缩 放的深度图; 其次通过测试图像的深度图的像素值中位数, 与模型预测得到的深度图的像素值中位 数进行相除, 得到一个缩放因子; 将缩放因子乘于模型 预测得到的深度图, 得到最终可用的深度图。权 利 要 求 书 2/2 页 3 CN 115546505 A 3

.PDF文档 专利 一种基于深度学习的无监督单目图像深度估计方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的无监督单目图像深度估计方法 第 1 页 专利 一种基于深度学习的无监督单目图像深度估计方法 第 2 页 专利 一种基于深度学习的无监督单目图像深度估计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:38:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。