(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210878462.8
(22)申请日 2022.07.25
(71)申请人 电子科技大 学长三角研究院 (湖州)
地址 313000 浙江省湖州市西塞山路819号
南太湖科技创新综合体B2幢8层
(72)发明人 沈冯立 李福生 赵彦春
(74)专利代理 机构 北京金智普华知识产权代理
有限公司 1 1401
专利代理师 郭美
(51)Int.Cl.
G06V 10/40(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于数据增广的零样本分类方法
(57)摘要
本发明公开了一种基于数据增广的零样本
分类方法。 该方法包括如下步骤: 首先组合视觉
特征, 将得到的视觉组合特征输入到关系网络
中, 输出的结果在可见类范围内打分, 达到可见
类数据增广的目的; 然后组合视觉特征与未见类
语义特征, 将得到的组合特征输入到关系网络
中, 输出的结果在全部的类的范围内打分, 达到
未见类数据增广的目的; 最后, 通过整合视觉特
征、 随机打乱的视觉特征和未见类语义特征这三
种特征匹配得到的三元组, 以数据增广的方式提
升零样本模型区分未见类和可见类的能力。 本方
法通过三种适用于零样本分类方法的数据增广
方式, 帮助提高零样本图像分类方法的准确率。
权利要求书2页 说明书5页 附图1页
CN 115424024 A
2022.12.02
CN 115424024 A
1.一种基于数据增广的零样本分类方法, 其特 征在于, 包括以下步骤:
步骤一: 利用卷积神经网络对训练图片进行视觉特征的提取, 利用循环神经网络对所
有类别的类别名进行类别语义特 征的提取;
步骤二: 将步骤一中提取得到的视觉特征和语义特征分别通过不同的多层感知器映射
到相同维度的空间, 保证视 觉特征和语义特 征映射后的特 征维度相同;
步骤三: 将步骤二中得到的一个训练图片样本的映射视觉特征复制可见类的类别份数
后, 将每一份与一个步骤二中得到的可见类的映射语义特征拼接, 将拼接的特征作为一个
整体输入到关系网络(relationNet)中进行类别置信度预测, 根据该训练样本的标注类别
计算损失 1;
步骤四: 将同一批次训练的步骤二得到的映射视觉特征随机组合, 将得到的组合特征
复制可见类的类别份数后, 将每一份复制结果分别与一个可见类的映射语义特征拼接, 将
拼接后的特征作为一个整体输入到 关系网络中进 行类别置信度预测, 根据组合特征的组合
类别标签 计算损失2;
步骤五: 将由步骤二得到的映射视觉特征与未见类的映射类别语义特征进行随机组
合, 得到视觉与语义的组合特征, 将组合特征复制所有类的类别份数后, 将 每一份与一个类
的映射语义特征拼接, 将拼接的特征作为一个整体输入到关系网络中进行类别置信度预
测, 根据组合特 征的组合类别标签 计算损失3;
步骤六: 将同一训练批次的映射视觉特征拼接对应的映射语义特征, 将拼接特征输入
到关系网络中输出可见类得分, 将结果复制一份, 对复制的结果 随机打乱得到随机可见类
得分;
步骤七: 将同一训练批次的映射视觉特征拼接未见类的映射语义特征后, 输入到关系
网络中, 得到未 见类得分;
步骤八: 根据步骤六和步骤七中得到的可见类得分、 随机可见类得分和未见类得分这3
个得分结果计算 三元组损失(t riplet loss);
步骤九: 将步骤三、 步骤四、 步骤五和步骤八中的损失1、 损失2、 损失3和三元组损失相
加得到训练阶段模型的总损失;
步骤十: 用步骤九中得到的总损失训练步骤三中的关系网络和步骤二中的多层感知
器;
步骤十一: 在预测阶段, 将待测图片与所有类别的语义特征进行拼接, 输入到训练完成
的关系网络中, 输出每一类的得分, 将得分最高的类别作为待测图片的预测类别。
2.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
一中, 图片视觉特征的维度为2048维, 循环卷积神经对类别名提取的类别语义特征为1024
维。
3.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
二中, 通过两个由全 连接层、 ReLU激活函数、 全连接层、 LeakyReLU激活函数 组成的四层 多层
感知器分别将2048维的视 觉特征和1024维的语义特 征映射到2048维的同维空间。
4.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
三中的关系网络(relationNet)由四层网络组成, 分别是全 连接层、 LeakyReLU激活函数、 全
连接层和Sigmoid激活函数组成; 关系网络的输入为4056维特征, 输出为一个介于0至1的得权 利 要 求 书 1/2 页
2
CN 115424024 A
2分。
5.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
三中, 损失 1的计算公式如下:
其中N和S分别表示一个训练批次中的样本数和可见类的数目, y是类别指示数, 当样本
i的标注类别和j为同一类时y等于1, 否则y等于0; v表 示关系网络输入步骤三中的拼接特征
后的输出。
6.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
四中随机组合同一训练批次的视 觉特征和组合特 征的组合类别标签的计算公式如下:
其中m和n分别表示两个不同的样本编号, x和y分别表示视 觉特征和类别标签。
7.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
四中损失2的计算公式如下:
8.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
五中组合视 觉特征和未见类语义特征和组合特 征的组合类别标签的计算公式如下:
其中a表示未见类的语义特 征。
9.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步骤
五中损失3的计算公式如下:
10.根据权利要求1所述的一种基于数据增广的零样本分类方法, 其特征在于, 所述步
骤八中的三元组损失 公式如下:
Ltri=max(||xa‑xp||‑||xa‑xn||+α,0);
其中xa, xp和xn分别为可 见类得分、 随机可 见类得分和未 见类得分。权 利 要 求 书 2/2 页
3
CN 115424024 A
3
专利 一种基于数据增广的零样本分类方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:26:39上传分享