(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211265948.0 (22)申请日 2022.10.17 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 左峥嵘 方林涛 沈凡姝 王岳环  (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 尹丽媛 (51)Int.Cl. G06V 10/26(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 一种分层自注意力场景语义分割模型的构 建方法 (57)摘要 本发明属于图像处理技术领域, 具体涉及一 种分层自注 意力场景语义分割模 型的构建方法, 包括: 将输入图像经过分层全自注 意力编码器不 同层的特征提取, 依次输出不同层对应的特征 图; 其中, 基于输入图像的掩码真值标签, 通过掩 码标签细节聚合, 得到细节真值标签, 采用细节 真值标签和当前次迭代中第二层所输出的特征 图, 通过计算损失, 对下一次迭代中分层全自注 意力编码器中第二层的特征提取过程进行约束, 以引导分层全自注意力编码器底层学习空间细 节信息; 将当前次迭代中不同层对应的特征图, 输入全多层感知器解码器进行解码, 得到预测的 分割掩码, 优化分层全自注意力编码器和全多层 感知器解码器参数。 本发明对目标尺 寸变化差异 适应性良好。 权利要求书2页 说明书11页 附图3页 CN 115546485 A 2022.12.30 CN 115546485 A 1.一种分层自注意力场景语义分割模型的构建方法, 其特 征在于, 包括: 将输入图像通过重叠块嵌入切分成小块, 经过分层全自注意力编码器不同层的特征提 取, 依次输出不同层对应的特征图; 其中, 基于所述输入图像的掩码真值标签, 通过掩码标 签细节聚合, 得到细节真值标签, 采用所述细节真值标签和当前次迭代中第二层所输出 的 特征图, 通过计算损失, 对下一次迭代中所述分层全自注意力编码器中第二层的特征提取 过程进行约束, 以引导分层全自注意力编码器底层学习空间细节信息; 将当前次迭代中所述不同层对应的特征图, 输入全多层感知器解码器进行解码, 得到 预测的分割掩码; 基于所述预测的分割掩码和所述掩码真值标签, 计算分割损失, 优化所述 分层全自注意力编码器和所述全多层感知器解码器参数, 重复上述步骤, 直至达到迭代终 止条件, 完成场景语义分割模型的构建。 2.根据权利要求1所述的构建方法, 其特征在于, 所述每层自注意力编码器包括多头自 注意力模块和Mix ‑FFN, 其中, Mix ‑FFN是由一个前馈网络混合使用3 ×3卷积以及多层感知 器MLP组合构成, 其输出表示 为: xout=MLP(GELU(Co nv3×3(FFN(xin))))+xin; 式中, xin表示所述多头自注意力模块得到的多头自注意力特征, GELU表示高斯误差线 性单元激活函数, Conv3×3表示3×3卷积, MLP表示所述多层感知器MLP结构, FFN表示所述前 馈网络, xout表示所述Mix ‑FFN的输出, 作为单个自注意力编码器的输出。 3.根据权利要求2所述的构建方法, 其特征在于, 所述多头自注意力模块在计算多头自 注意力特征时, 将 每个头节点矩阵的反映图像分辨率的行数以缩减比例R进行缩减, 以降低 计算复杂度, 缩 减方式如下: 其中, T是待缩减的矩阵, 分别为Q、 K、 V矩阵, 第一个式子表示将T变形成大小为 的矩阵, linear(Cinput, Coutput)(·)表示将列数为Cinput的输入张量转换成列 数为Coutput的输出张量的线性层, 为维度为 的新头节点矩阵。 4.根据权利要求1所述的构建方法, 其特征在于, 所述全多层感知器解码器由全MLP层 构成。 5.根据权利要求1所述的构建方法, 其特征在于, 所述掩码标签细节聚合的实现方式 为: 采用固定拉普拉斯算子以及不同步长值, 对所述输入图像的掩码真值标签进行卷积计 算, 提取各步长下 所述掩码真值标签的第一细节边 缘特征; 分别对不同步长下的所述细节边缘特征进行向上采样操作, 得到宽度和高度与所述输 入图像相同的第二细节边 缘特征; 对不同步长对应的所述第 二细节边缘特征进行级联, 通过1 ×1大小的卷积对级联后的 第二细节边 缘特征进行融合, 得到融合后的细节边 缘特征; 设置门限阈值实现二值分割, 将所述融合后的细节边缘特征, 转换为二值图像空间细 节标签, 作为所述细节真值标签。权 利 要 求 书 1/2 页 2 CN 115546485 A 26.根据权利要求5所述的构建方法, 其特征在于, 所述上采样操作采用线性插值函数完 成。 7.根据权利要求1所述的构建方法, 其特征在于, 用于所述对下一 次迭代中所述分层全 自注意力编码 器中第二层的特征提取过程进 行约束的损失, 通过交叉熵损失与Dice损失联 合计算得到, 表示为: Ldetail(pd, gd)=Ldice(pd, gd)+Lbce(pd, gd); 其中, Ldetail(pd, gd)表示通过 交叉熵损失与Dice损失联合计算得到的细节损失, pd∈RH×W表示所述分层全自注意力编码 器中第二层所输出的特征, gd∈RH×W表示所述细节真值标签; Lbce为二分类交叉熵损失, Ldice 为Dice损失, 即: 其中, i表示像素编号, τ0表示拉普拉斯平 滑项。 8.一种场景语义分割方法, 其特征在于, 采用 如权利要求1至7任一项所述的一种分层 自注意力场景语义分割模型的构建方法所构建的分层自注意力场景语义分割模型进行场 景语义分割。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质包括存储的计算 机程序, 其中, 在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利 要求1至7任一项所述的一种分层自注意力场景语义分割模型的构建方法。权 利 要 求 书 2/2 页 3 CN 115546485 A 3

PDF文档 专利 一种分层自注意力场景语义分割模型的构建方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种分层自注意力场景语义分割模型的构建方法 第 1 页 专利 一种分层自注意力场景语义分割模型的构建方法 第 2 页 专利 一种分层自注意力场景语义分割模型的构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。