(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210450752.2
(22)申请日 2022.04.27
(65)同一申请的已公布的文献号
申请公布号 CN 114565799 A
(43)申请公布日 2022.05.31
(73)专利权人 南京邮电大 学
地址 210023 江苏省南京市亚 东新城区文
苑路9号
(72)发明人 龙显忠 张智猗
(74)专利代理 机构 南京正联知识产权代理有限
公司 32243
专利代理师 张玉红
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/74(2022.01)G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(56)对比文件
CN 106769048 A,2017.0 5.31
CN 113326731 A,2021.08.31
Xinlei Chen等.Exploring Simple
Siamese Representati on Learning. 《2021
IEEE/CVF Conference o n Computer Visi on
and Pattern Recogn ition (CVPR)》 .2021,第
15745-15753页.
审查员 徐菲
(54)发明名称
一种基于多网络框架的对比自监督学习方
法
(57)摘要
本发明公开了一种基于多网络框架的对比
自监督学习方法, 包括步骤为: 对训练集中的每
张图像都应用数据增广手段得到三个独立的增
广视图; 将三个增广视图分别输入到设计好的反
向传播网络、 停止梯度网络和动量网络中; 结合
负样本队列分别计算反向传播网络与停止梯度
网络、 反向传播网络与动量网络之间输出向量的
损失值, 相加后得到总损失值; 通过最小化总损
失值对反向传播网络的参数进行梯度更新; 利用
反向传播网络的参数对停止梯度网络和动量网
络进行参数更新; 用动量网络更新负样本队列。
本发明是在经 典的自监督学习方法的基础上, 通
过使用多网络框架引入更多正样 本对, 同时结合
端到端和动量机制引入更多的负样 本, 达到更好
的预训练效果。
权利要求书1页 说明书6页 附图2页
CN 114565799 B
2022.07.08
CN 114565799 B
1.一种基于多网络 框架的对比自监 督学习方法, 其特 征在于, 所述方法的步骤为:
步骤1、 对训练集中的每张图像都进行 数据增广分别得到三张独立的增广视图;
步骤2、 将三个增广视图分别对应输入到反向传播网络、 停止梯度网络和动量网络中,
得到对应的图像表征;
步骤3、 将来自同一张图像的增广视图视为正样本, 而同一批内的其余图像及动 量编码
器所维护的样本队列视为负样本, 计算反向传播网络和停止梯度网络输出结果之 间的损失
值;
步骤4、 将来自同一张图像的增广视图视为正样本, 而同一批内的其余图像及动 量编码
器所维护的样本队列视为负样本, 计算反向传播网络和 动量网络之间的损失值, 并与步骤3
的结果相加得到最终的总损失值;
步骤5、 通过最小化总损失值对反向传播网络的参数进行梯度更新;
步骤6、 利用反向传播网络的参数对停止梯度网络和动量网络进行参数 更新;
步骤7、 用动量网络更新负 样本队列, 经 过多次迭代训练后, 完成预训练。
2.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 步
骤1中, 对训练集中的图像进行数据增广, 所用的数据增广策略包括随机裁剪并调整大小、
水平翻转、 颜色失真和灰度转换, 对上述数据采用随机的高斯模糊。
3.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所
述步骤2中, 所述反向传播网络包括编码器和预测 MLP头两部分, 其中编码器由主干网络和
投影MLP头组成, 使用梯度更新; 停止梯度网络和 动量网络 分别只有一个与反向传播网络相
同的编码器网络, 借助反向传播网络的参数进行 更新。
4.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所
述步骤3中反向传播网络和停止梯度网络输出结果之间的损失值, 分为正样本对相似度和
负样本对相似度两部分; 假设训练图像的批尺寸为
, 那么在对应的两组批图像集合中, 除
去一对正样本对 外, 则其余
个图像为负样本, 同时假设负样本队列的大小为
, 那
么共有
个负样本。
5.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于: 所
述步骤5所述的梯度更新, 是通过对总损失值最小化完成的, 并只针对反向传播网络中的参
数进行更新, 而停止梯度网络和动量网络的参数都不 参与更新。
6.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所
述步骤6中停止梯度网络和动量网络的参数都不参与梯度更新, 而是分别使用反向传播网
络的所有和部分参数来进行 更新。
7.根据权利要求1所述的一种基于多网络框架的对比自监督学习方法, 其特征在于, 所
述步骤7中用动量网络更新负样本队列, 是将动量网络 当前输出的批集合送入队列, 同时将
队列中最旧的批集 合丢弃。权 利 要 求 书 1/1 页
2
CN 114565799 B
2一种基于多网 络框架的对比自监督学习方 法
技术领域
[0001]本发明涉及自监督视觉表征学习领域, 尤其是涉及了一种基于多网络框架的对比
自监督学习方法。
背景技术
[0002]近年来, 随着互联网的快速发展和多媒体技术的日益成熟, 社会的数字化和信息
化程度正在不断提高, 特别是大数据时代的到来, 使 得数字信息 资源处于井喷式增长阶段。
而随着智能手机、 平板等智能移动 终端的普及, 数字图像已成为人们日常生活中不可或缺
的组成部分, 它在社交、 购物、 学习等方面都起到了非常重要作用。 现如今互联网上每天都
会有大量的数字图像被上传和共享, 图像数据资源已经呈现出爆炸式增长的趋势。 如何对
这些海量图像资源进行及时有效地分类和检索已成为 一个重要的研究课题。
[0003]自2012年的ImageNet图像识别比赛上, AlexNet方法以优于第二名10个百分点的
绝对优势获胜, 至此深度学习进入爆发式发展阶段, 在计算机视觉特别是图像分类领域中
有着越来越广泛和重要的应用。
[0004]尽管深度学习方法在计算机视觉任务中取得了优异的成绩, 但仍存在一个问题:
深度神经网络的性能严重依赖于大量的标记数据。 例如ImageNet作为使用最广泛的监督学
习预训练数据集之一, 包含1000个类别的大约130万个标记图像, 可以训练出性能强大的网
络, 能够广泛应用于图像分类、 目标检测或语义分割等各种任务中。 然而在许多现实问题
中, 收集大量的标记数据成本是非常昂贵的。
[0005]解决这一问题的一种方法就是使用自监督学习。 自监督学习(Self ‑Supervised
Learning, SSL)作为机器学习中一种新的无监督表示学习方法, 近几年受到了广泛的关
注。 自监督学习旨在从未标记的视觉数据中学习良好的表示, 减少甚至消除昂贵的手工标
签收集的需要。 在深度网络环境中, 自监督学习最常见 的用途是用未标记的数据对网络进
行预训练, 然后 将学习到的知识迁移到下游任务。 自监督学习的预训练效果越好, 在下游任
务的表现也就越好。 近年来, 随着新的自监督方法的不断提出, 它们的性能越来越接近
ImageNet上的监督预训练。 虽然目前利用这些方法并不常见, 但随着自监督学习的不 断发
展, 未来很有可能会广泛应用到计算机 视觉的各个领域中。
[0006]早期的自监督学习方法通过执行预置任务来训练网络, 预置任务是根据数据中找
到的属性自动生成伪标签。 代表性的预置任务有:图像补绘、 着色、 拼图、 旋转等。 从预置任
务学习到的网络可以用于任何下游任务, 如分类、 分割、 检测等。 然而, 预置任务的设计依赖
于启发式, 这可能会限制学习表征的可泛化 性。
[0007]为了解决这种问题, 有研究人员提出了对比自监督学习(Contrast Self‑
Supervised Learning, CSSL), 性能超越了之前基于 预置任务的方法, 得到了广泛的认可。
目前对比自监督学习已经在自监督学习中占据了主导地位, 因为它与儿童通过对比形成概
念类的认知发展一致。 对比自监督学习通常通过对比图像的不同数据增强变换或聚类分配
的潜在表示来学习 特征, 在某些情况下 的性能甚至超过有监督训练, 其优异的性能已经引说 明 书 1/6 页
3
CN 114565799 B
3
专利 一种基于多网络框架的对比自监督学习方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:00:06上传分享