(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211395308.1 (22)申请日 2022.11.09 (71)申请人 之江实验室 地址 311121 浙江省杭州市余杭区之江实 验室南湖总部 (72)发明人 张鼎文 薛文灏 张晓 程乐超  方超伟 韩军伟  (74)专利代理 机构 北京志霖恒远知识产权代理 有限公司 1 1435 专利代理师 戴莉 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 20/70(2022.01)G06V 10/26(2022.01) (54)发明名称 基于梯度和区域亲和力优化的弱监督语义 分割方法及装置 (57)摘要 本发明公开了基于梯度和区域亲和力优化 的弱监督语义分割方法及装置, 本方法提出的基 于视觉Transformer的弱监督语义分割框架, 可 以保留精确的图像结构信息, 反映像素间长距离 语义关联。 本发 明从自注意力模块中提取梯度加 权的类相关物体定位图和区域亲和度关联图, 用 于优化通过Tran sformer分类网络生成的类激活 图, 可以有效扩大激活区域, 并使用显著性约束 提高激活区域的边界质量, 缓解边界被错误划分 现象, 为分割模型提供高质量的物体定位图; 在 类激活图中广泛使用的二值交叉熵(BCE)损失使 CAM中每个像素可以响应于同一感受野中出现的 多个类别, 是造成像素标注错 误的重要原因。 权利要求书2页 说明书11页 附图5页 CN 115512169 A 2022.12.23 CN 115512169 A 1.一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特征在于, 包括训练集 和训练模型; 所述训练集包括类别标注数据集和显著图数据集, 所述类别标注数据集由标 注样本以及标注样本对应的真实类别标签组成, 所述显著图数据集中由标注样本对应的显 著图组成; 所述训练模 型为基于注意力机制的弱监督语义分割框架GA Net; 所述方法包括如 下步骤: S1、 将训练集输入训练模型, 输出得到类别块预测向量和图像块预测向量, 计算类别块 预测向量、 图像块预测向量与标注样本对应的真实类别标签之间的监 督损失; S2、 对训练模型输出的三维特征图进行筛选得到目标特征图和背景特征图; 根据目标 特征图、 背景特征图和标注样本对应的显著图构建预测显著图; 计算预测显著图与标注样 本对应的显著图之间的显著性损失; 结合步骤S1中的监督损失, 对训练模型进行训练得到 模型SGANet; S3、 从步骤S2中的模型SGANet中获得基于图像块的类激活图; 基于注意力图提取梯度 加权注意力图和区域亲和度关联图优化基于图像块的类激活图, 得到优化后的物体定位 图; S4、 使用步骤S3中优化后的物体定位图处理三维特征图; 使用Softmax 交叉熵损失对模 型SGANet进行 再激活优化; S5、 从再激活优化后的模型SGANet中提取优化后的物体定位图和补充优化图进行融 合, 得到最终的伪标签对图像分割模型进行全监 督训练。 2.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于: 所述训练模型的网络结构采用Vit网络, Vit网络中存在L个层级相连的编码层, 每 层都包含一个多头注意力模块, 一个前向激活层和两个分别位于多头注意力模块和前向激 活层之前的LayerN orm层。 3.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于, 步骤S1具体包括如下子步骤: S11、 将训练集输入训练模型, 训练模型的Transformer编码器输出类别编码块和图像 编码块; S12、 将类别编码块和图像编码块进行处 理得到类别块预测向量和图像块预测向量; S13、 计算类别块预测向量与标注样本对应的真实类别标签之间的交叉熵损失; S14、 计算图像块预测向量与标注样本对应的真实类别标签之间的交叉熵损失; S15、 根据步骤S14得到交叉熵损失和步骤S15得到交叉熵损失的总和, 得到监 督损失。 4.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于, 步骤S12中类别编码块经 过全连接层转 化成类别块预测向量。 5.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于, 步骤S12中图像编码块经过变形和C通道的卷积层处理成三维特征图; 再对三维特 征图进行全局平均池化处 理得到图像块预测向量。 6.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于, 步骤S2具体包括如下子步骤: S21、 对训练模型输出的三维特征图进行筛选, 剔除非目标类别的三维特征图; 得到目 标特征图和背景 特征图;权 利 要 求 书 1/2 页 2 CN 115512169 A 2S22、 对目标特征图、 背景特征图和标注样本对应的显著图进行二值化处理, 再计算目 标特征图、 背景 特征图与标注样本对应的显著图之间的像素重 叠比; S23、 根据步骤S22中像素重叠比的大小进行划分, 将像素重叠比大于等于阈值的组成 得到预测前景显著图; 将像素重叠比小于阈值的划分为背景显著图, 将背景显著图与背景 特征图组合成预测背 景显著图; 将预测前景显著图和预测背 景显著图相加组合成预测显著 图; S24、 计算预测显著图与标注样本对应的显著图之间的像素平均距离, 得到显著性损 失; 结合步骤S1中的监 督损失, 对训练模型进行训练得到模型SGANet。 7.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于, 步骤S3中基于图像块的类激活图获得 方法如下: S31、 根据模型SGANet的Transformer编码器输出的图像编码块, 图像编码块经过变形 和C通道的卷积层处 理成三维特 征图; S32、 使用类激活图计算方法处 理三维特 征图, 获得基于图像块的类激活图。 8.如权利要求1所述的一种基于梯度和区域亲和力优化的弱监督语义分割方法, 其特 征在于, 步骤S4中具体包括如下操作: 使用优化后的物体定位图处理三维特征图得到多个 特定类的特征图, 拓展网络下支部分, 同时计算基于二值交叉熵损失的上支部分损失和基 于Softmax  交叉熵损失的下支部分损失, 两者 一起更新网络模型。 9.一种基于梯度和区域亲和力优化的弱监督语义分割装置, 其特征在于, 包括存储器 和一个或多个处理器, 所述存储器中存储有可执行代码, 所述一个或多个处理器执行所述 可执行代码时, 用于实现权利要求1 ‑8任一项所述的一种基于梯度和区域亲和力优化的弱 监督语义分割方法。 10.一种计算机可读存储介质, 其特征在于: 其上存储有程序, 该程序被处理器执行时, 实现权利要求1 ‑8任一项所述的一种基于梯度和区域亲和力优化的弱监 督语义分割方法。权 利 要 求 书 2/2 页 3 CN 115512169 A 3

PDF文档 专利 基于梯度和区域亲和力优化的弱监督语义分割方法及装置

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 第 1 页 专利 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 第 2 页 专利 基于梯度和区域亲和力优化的弱监督语义分割方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:44上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。