standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210682147.8 (22)申请日 2022.06.16 (71)申请人 上海人工智能创新中心 地址 200000 上海市徐汇区云锦路701号 37、 38层 (72)发明人 高鹏 张仁瑞 莫申童 马特立  李鸿升 乔宇  (74)专利代理 机构 北京市诚辉律师事务所 11430 专利代理师 耿慧敏 朱伟军 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/42(2022.01) G06V 10/52(2022.01) G06V 10/82(2022.01)G06V 10/26(2022.01) (54)发明名称 一种基于多知识融合的视 觉学习方法 (57)摘要 本发明公开了一种基于多知识融合的视觉 学习方法。 该方法包括: 构建视觉学习器, 该视觉 学习器包 括多个卷积 模块, Transformer模 块、 解 码器和多知识融合模块, 其中, 各卷积模块的输 入图像具有不同分辨率, 并且各输入图像对应多 种知识的每一种具有互补的遮掩区域, 各卷积模 块对多种知识对应的不同非遮掩区域进行相互 独立的特征提取; 所述Transformer模块针对未 遮掩的特征进行相互独立的全局特征提取; 所述 解码器基于未遮掩的特征和掩码进行图像重建; 以设定的损失标准为目标预训练视觉学习器, 在 预训练过程中, 利用所述多知识融合模块学习到 的多种知识作为监督信号输入到所述解码器指 导训练过程。 本发明提高了预训练效率, 并且可 适配到更广泛的下游任务。 权利要求书1页 说明书7页 附图2页 CN 115115918 A 2022.09.27 CN 115115918 A 1.一种基于多知识融合的视 觉学习方法, 包括以下步骤: 构建视觉学习器, 该视觉学习器包括多个卷积模块, Transformer模块、 解码器和多知 识融合模块, 其中, 各卷积模块的输入图像具有不同分辨率, 并且各输入图像对应多种知识 的每一种具有互补的遮掩区域, 各卷积模块对多种知识对应的不同非遮掩区域进 行相互独 立的特征提取; 所述Transformer模块针对 未遮掩的特征进 行相互独立的全局特征提取; 所 述解码器基于未遮 掩的特征和掩码进行图像重建; 以设定的损 失标准为目标预训练视觉学习器, 在预训练过程中, 利用所述多知识融合 模块学习到的多种知识作为 监督信号输入到所述 解码器指导训练过程。 2.根据权利要求1所述的方法, 其特征在于, 对于所述多个卷积模块的输入图像, 根据 设定的互补 掩码确定每种知识的遮掩区域, 该互补 掩码使得不同知识对应的可见区域在图 像上互补。 3.根据权利要求2所述的方法, 其特征在于, 所述多种知识包括四种, 所述多个卷积模 块包括第一卷积模块和第二卷积模块, 第一卷积模块的输入图像的分辨率是原始图像的1/ 4, 第二卷积模块的输入图像是原始图像的1/8; 将第二卷积模块的输出下采样到原始图像 分辨率的1/16, 并将四种知识对应的不同特征独立出来, 利用对应的互补掩码拉平后进行 遮掩, 进而将未遮掩的特征送入 所述Transformer模块, 以针对四种知识进 行相互独立的全 局特征的提取, 其中所述原 始图像是指输入到所述视 觉学习器的图像。 4.根据权利要求3所述的方法, 其特征在于, 第 一卷积模块和第 二卷积模块的层数设置 为2层, 卷积核大小设置为5 *5, 所述Transformer模块的层数设置为1 1层。 5.根据权利要求1所述的方法, 其特征在于, 所述解码器的浅层Transformer模块对所 述多种知识的特 征共享, 所述 解码器的深层Transformer模块对于不同知识间相互独立。 6.根据权利要求1所述的方法, 其特征在于, 所述多种知识包括语言 ‑视觉的多模态的 知识、 不同图片间的判别性知识、 历史动量知识和RGB像素知识。 7.根据权利要求6所述的方法, 其特征在于, 采用历史动量编码器学习所述历史动量知 识, 采用DINO模 型学习所述不同图片间的判别性知识, 采用CLIP学习所述语 言‑视觉的多模 态的知识。 8.一种视 觉学习器的应用方法, 包括: 针对输入的目标图像, 利用多个卷积模块以及根据权利要求1至6中任一项所述方法获 得的经训练的Transformer模块提取不同尺度的特征, 其中所述Transformer模块采用全局 或局部注意力机制对特 征进行增强; 将所述Transformer模块输出的特征进行下采样后, 与所提取的不 同尺度特征一起送 入到检测网络或者分割网络, 获得对应的检测结果或分割结果。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器执 行时实现根据权利要求1至8中任一项所述的方法的步骤。 10.一种计算机设备, 包括存储器和处理器, 在所述存储器上存储有能够在处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至8 中任 一项所述的方法的步骤。权 利 要 求 书 1/1 页 2 CN 115115918 A 2一种基于多知识融合的视觉学习方 法 技术领域 [0001]本发明涉及计算机视觉技术领域, 更具体地, 涉及一种基于多知识融合的视觉学 习方法。 背景技术 [0002]掩码自动编码器是指在计算机视觉骨干网络的预训练中, 利用随机掩码将图像的 一部分进行掩盖, 利用编码器学习 未被掩盖部分的特征, 然后根据这些特征学习恢复出被 掩盖的图像特征。 利用掩码自动编码器(MaskAutoenco der, MAE)来进行视觉特征的预训练 学习已经在各种视 觉任务中取 得了很好的性能。 [0003]自监督预训练已经成为视觉特征学习的新范式, 并且通过其强大的视觉表征能力 提升了各种视觉任务的性能。 除了DINO、 MOCO ‑V3等对比学习的自监督方法之外, 掩码自动 编码器(MaskAutoenco der‑MAE)也表现出了很有潜力的性能, 并且启发了一系列后续针对 其性能改进的工作, 例如ConvMAE、 HiVIT、 MixMIM等。 MAE的自监督学习是受自然语言处理中 BERT模型的启发, 它将图片的一部分区域用随机掩码遮挡, 然后利用未被遮挡的部分来重 建掩码区域的像素值, 通过这种方式使得网络学习到图片的低层次语义信息。 然而, 现有技 术中, 缓慢的预训练收敛速度和巨大 的计算资源开销很大程度上制约了MAE的进一步发展 和应用。 具体来说, 预训练基于视觉Transformer 网络的MAE需要800个周期, 并花 费两千个 显卡小时, 而后续的Co nvMAE需要16 00个周期和四千个显卡小时。 [0004]因此, 有必要提供新的技 术方案来加速预训练时间 并降低计算资源的开销。 发明内容 [0005]本发明的目的是克服上述现有技术的缺陷, 提供一种基于多知识融合的视觉学习 方法。 [0006]根据本发明的第一方面, 提供一种基于多知识融合的视觉学习方法。 该方法包括 以下步骤: [0007]构建视觉学习器, 该视觉学习器包括多个卷积模块, Transformer模块、 解码器和 多知识融合模块, 其中, 各卷积模块的输入图像具有不同分辨率, 并且各输入图像对应多种 知识的每一种具有互补的遮掩区域, 各卷积模块对多种知识对应的不同非遮掩区域进 行相 互独立的特征提取; 所述Tr ansformer模块针对未遮掩的特征进行相互独立的全局特征提 取; 所述解码器基于未遮 掩的特征和掩码进行图像重建; [0008]以设定的损失标准为目标预训练视觉学习器, 在预训练过程中, 利用所述多知识 融合模块学习到的多种知识作为 监督信号输入到所述 解码器指导训练过程。 [0009]根据本发明的第二方面, 提供一种视 觉学习器的应用方法。 该 方法包括: [0010]针对输入的目标图像, 利用多个卷积模块以及上述经训练的Transformer模块提 取不同尺度的特征, 其中所述Tr ansformer模块采用全局或局 部注意力机制对特征进行增 强;说 明 书 1/7 页 3 CN 115115918 A 3

.PDF文档 专利 一种基于多知识融合的视觉学习方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多知识融合的视觉学习方法 第 1 页 专利 一种基于多知识融合的视觉学习方法 第 2 页 专利 一种基于多知识融合的视觉学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:26:26上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。