standard download
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210450752.2 (22)申请日 2022.04.27 (65)同一申请的已公布的文献号 申请公布号 CN 114565799 A (43)申请公布日 2022.05.31 (73)专利权人 南京邮电大 学 地址 210023 江苏省南京市亚 东新城区文 苑路9号 (72)发明人 龙显忠 张智猗  (74)专利代理 机构 南京正联知识产权代理有限 公司 32243 专利代理师 张玉红 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (56)对比文件 CN 106769048 A,2017.0 5.31 CN 113326731 A,2021.08.31 Xinlei Chen等.Exploring Simple Siamese Representati on Learning. 《2021 IEEE/CVF Conference o n Computer Visi on and Pattern Recogn ition (CVPR)》 .2021,第 15745-15753页. 审查员 徐菲 (54)发明名称 一种基于多网络框架的对比自监督学习方 法 (57)摘要 本发明公开了一种基于多网络框架的对比 自监督学习方法, 包括步骤为: 对训练集中的每 张图像都应用数据增广手段得到三个独立的增 广视图; 将三个增广视图分别输入到设计好的反 向传播网络、 停止梯度网络和动量网络中; 结合 负样本队列分别计算反向传播网络与停止梯度 网络、 反向传播网络与动量网络之间输出向量的 损失值, 相加后得到总损失值; 通过最小化总损 失值对反向传播网络的参数进行梯度更新; 利用 反向传播网络的参数对停止梯度网络和动量网 络进行参数更新; 用动量网络更新负样本队列。 本发明是在经 典的自监督学习方法的基础上, 通 过使用多网络框架引入更多正样 本对, 同时结合 端到端和动量机制引入更多的负样 本, 达到更好 的预训练效果。 权利要求书1页 说明书6页 附图2页 CN 114565799 B 2022.07.08 CN 114565799 B 1.一种基于多网络 框架的对比自监 督学习方法, 其特 征在于, 所述方法的步骤为: 步骤1、 对训练集中的每张图像都进行 数据增广分别得到三张独立的增广视图; 步骤2、 将三个增广视图分别对应输入到反向传播网络、 停止梯度网络和动量网络中, 得到对应的图像表征; 步骤3、 将来自同一张图像的增广视图视为正样本, 而同一批内的其余图像及动 量编码 器所维护的样本队列视为负样本, 计算反向传播网络和停止梯度网络输出结果之 间的损失 值; 步骤4、 将来自同一张图像的增广视图视为正样本, 而同一批内的其余图像及动 量编码 器所维护的样本队列视为负样本, 计算反向传播网络和 动量网络之间的损失值, 并与步骤3 的结果相加得到最终的总损失值; 步骤5、 通过最小化总损失值对反向传播网络的参数进行梯度更新; 步骤6、 利用反向传播网络的参数对停止梯度网络和动量网络进行参数 更新; 步骤7、 用动量网络更新负 样本队列, 经 过多次迭代训练后, 完成预训练。 2.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 步 骤1中, 对训练集中的图像进行数据增广, 所用的数据增广策略包括随机裁剪并调整大小、 水平翻转、 颜色失真和灰度转换, 对上述数据采用随机的高斯模糊。 3.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所 述步骤2中, 所述反向传播网络包括编码器和预测 MLP头两部分, 其中编码器由主干网络和 投影MLP头组成, 使用梯度更新; 停止梯度网络和 动量网络 分别只有一个与反向传播网络相 同的编码器网络, 借助反向传播网络的参数进行 更新。 4.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所 述步骤3中反向传播网络和停止梯度网络输出结果之间的损失值, 分为正样本对相似度和 负样本对相似度两部分; 假设训练图像的批尺寸为 , 那么在对应的两组批图像集合中, 除 去一对正样本对 外, 则其余 个图像为负样本, 同时假设负样本队列的大小为 , 那 么共有 个负样本。 5.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于: 所 述步骤5所述的梯度更新, 是通过对总损失值最小化完成的, 并只针对反向传播网络中的参 数进行更新, 而停止梯度网络和动量网络的参数都不 参与更新。 6.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所 述步骤6中停止梯度网络和动量网络的参数都不参与梯度更新, 而是分别使用反向传播网 络的所有和部分参数来进行 更新。 7.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所 述步骤7中用动量网络更新负样本队列, 是将动量网络 当前输出的批集合送入队列, 同时将 队列中最旧的批集 合丢弃。权 利 要 求 书 1/1 页 2 CN 114565799 B 2一种基于多网 络框架的对比自监督学习方 法 技术领域 [0001]本发明涉及自监督视觉表征学习领域, 尤其是涉及了一种基于多网络框架的对比 自监督学习方法。 背景技术 [0002]近年来, 随着互联网的快速发展和多媒体技术的日益成熟, 社会的数字化和信息 化程度正在不断提高, 特别是大数据时代的到来, 使 得数字信息 资源处于井喷式增长阶段。 而随着智能手机、 平板等智能移动 终端的普及, 数字图像已成为人们日常生活中不可或缺 的组成部分, 它在社交、 购物、 学习等方面都起到了非常重要作用。 现如今互联网上每天都 会有大量的数字图像被上传和共享, 图像数据资源已经呈现出爆炸式增长的趋势。 如何对 这些海量图像资源进行及时有效地分类和检索已成为 一个重要的研究课题。 [0003]自2012年的ImageNet图像识别比赛上, AlexNet方法以优于第二名10个百分点的 绝对优势获胜, 至此深度学习进入爆发式发展阶段, 在计算机视觉特别是图像分类领域中 有着越来越广泛和重要的应用。 [0004]尽管深度学习方法在计算机视觉任务中取得了优异的成绩, 但仍存在一个问题:   深度神经网络的性能严重依赖于大量的标记数据。 例如ImageNet作为使用最广泛的监督学 习预训练数据集之一, 包含1000个类别的大约130万个标记图像, 可以训练出性能强大的网 络, 能够广泛应用于图像分类、 目标检测或语义分割等各种任务中。 然而在许多现实问题 中, 收集大量的标记数据成本是非常昂贵的。 [0005]解决这一问题的一种方法就是使用自监督学习。 自监督学习(Self ‑Supervised   Learning,  SSL)作为机器学习中一种新的无监督表示学习方法, 近几年受到了广泛的关 注。 自监督学习旨在从未标记的视觉数据中学习良好的表示, 减少甚至消除昂贵的手工标 签收集的需要。 在深度网络环境中, 自监督学习最常见 的用途是用未标记的数据对网络进 行预训练, 然后 将学习到的知识迁移到下游任务。 自监督学习的预训练效果越好, 在下游任 务的表现也就越好。 近年来, 随着新的自监督方法的不断提出, 它们的性能越来越接近 ImageNet上的监督预训练。 虽然目前利用这些方法并不常见, 但随着自监督学习的不 断发 展, 未来很有可能会广泛应用到计算机 视觉的各个领域中。 [0006]早期的自监督学习方法通过执行预置任务来训练网络, 预置任务是根据数据中找 到的属性自动生成伪标签。 代表性的预置任务有:图像补绘、 着色、 拼图、 旋转等。 从预置任 务学习到的网络可以用于任何下游任务, 如分类、 分割、 检测等。 然而, 预置任务的设计依赖 于启发式, 这可能会限制学习表征的可泛化 性。 [0007]为了解决这种问题, 有研究人员提出了对比自监督学习(Contrast  Self‑ Supervised Learning,  CSSL), 性能超越了之前基于 预置任务的方法, 得到了广泛的认可。 目前对比自监督学习已经在自监督学习中占据了主导地位, 因为它与儿童通过对比形成概 念类的认知发展一致。 对比自监督学习通常通过对比图像的不同数据增强变换或聚类分配 的潜在表示来学习 特征, 在某些情况下 的性能甚至超过有监督训练, 其优异的性能已经引说 明 书 1/6 页 3 CN 114565799 B 3

PDF文档 专利 一种基于多网络框架的对比自监督学习方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多网络框架的对比自监督学习方法 第 1 页 专利 一种基于多网络框架的对比自监督学习方法 第 2 页 专利 一种基于多网络框架的对比自监督学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。