standard download
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
问题反馈
首页
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210425626.1 (22)申请日 2022.04.21 (71)申请人 中国科学院信息 工程研究所 地址 100093 北京市海淀区闵庄路甲89号 (72)发明人 周玉灿 陈晓华 吴大衍 李波 王伟平 (74)专利代理 机构 北京君尚知识产权代理有限 公司 11200 专利代理师 余长江 (51)Int.Cl. G06V 10/764(2022.01) G06K 9/62(2022.01) G06V 10/774(2022.01) G06F 17/16(2006.01) G06V 10/40(2022.01)G06V 10/74(2022.01) (54)发明名称 基于特征空间有效面积的自适应加权长尾 分类方法及装置 (57)摘要 本发明公开了一种基于特征空间有效面积 的自适应加权长尾 分类方法及装置, 所述方法包 括: 在原始数据的分布上训练特征提取器与分类 器, 得到基本分类模型; 基于训练后的特征提取 器, 抽取所述原始数据的特征表示, 并根据每一 类别中所述特征表示之间的相关系数, 构建该类 别的相关系数矩阵; 基于所述相关系数矩阵, 计 算每一类别在特征空间中的有效面积, 并通过所 述有效面积给各类别分配权重, 训练所述基本分 类模型, 以得到分类模型; 基于所述分类模型, 获 取待检测数据的分类结果。 本发 明通过估计特征 空间中的有效面积从而给予不同的类别不同的 权重损失, 更好的划分特征空间, 以对长尾数据 进行更有效地分类 。 权利要求书1页 说明书10页 附图4页 CN 114926676 A 2022.08.19 CN 114926676 A 1.一种基于特 征空间有效面积的自适应加权 长尾分类方法, 其 步骤包括: 在原始数据的分布上训练特 征提取器与分类 器, 得到基本分类模型; 基于训练后的特征提取器, 抽取所述原始数据的特征表示, 并根据每一类别 中所述特 征表示之间的相关系数, 构建该类别的相关系数矩阵; 基于所述相关系数矩阵, 计算每一类别在特征空间中的有效面积, 并通过所述有效面 积给各类别分配权 重, 训练所述基本分类模型, 以得到分类模型; 基于所述分类模型, 获取待检测数据的分类结果。 2.如权利要求1所述的方法, 其特征在于, 所述在原始数据的分布上训练特征提取器与 分类器的方法, 包括: 基于交叉熵损失进行训练。 3.如权利要求1所述的方法, 其特征在于, 所述根据每一类别中所述特征表示之间的相 关系数, 构建该类别的相关系数矩阵, 包括: 对于类别lc, 计算任两个特 征表示的协方差; 计算类别lc的方差; 基于所述协方差与类别lc的方差, 获取任两个特 征表示之间的相关系数; 基于所述相关系数, 构建所述相关系数矩阵。 或, 计算类别lc的类中心 μc; 通过将中心化后的{fi‑μc}和{fj‑μc}的余弦距 离作为相关系数矩阵的每一项, 得到 该类 别的相关系数矩阵, 其中fi、 fj分为原始数据xi、 xj的特征表示。 4.如权利要求1所述的方法, 其特征在于, 所述基于所述相关系数矩阵, 计算每一类别 在特征空间中的有效面积, 包括: 获取向量ac, 其中所述向量ac的第i元素 Nc为类别lc中所述特 征表示的数量; 根据所述向量ac与所述相关系数矩阵, 计算类别lc在特征空间中的有效面积。 5.如权利要求1所述的方法, 其特征在于, 所述权重 其中|C|表示 类别数量, 表示类别lc在特征空间的有效面积。 6.如权利要求5所述的方法, 其特征在于, 训练所述基本分类模型的损失函数 N表示所述原始数据的数量, 表示原始数据xi在类别lc上的预测分 数。 7.如权利要求1所述的方法, 其特征在于, 所述训练所述基本分类模型时, 基于所有 batch的在特征 空间中的有效面积的和, 得到各个类别的有效面积, 基于有效面积的倒数计 算各个类别的权 重, 计算该batc h的损失函数, 以训练所述基本分类模型。 8.一种存储介质, 所述存储介质中存储有计算机程序, 其中, 所述计算机程序被设置为 运行时执 行权利要求1 ‑7中任一所述方法。 9.一种电子装置, 包括存储器和处理器, 所述存储器中存储有计算机程序, 所述处理器 被设置为 运行所述计算机程序以执 行如权利要求1 ‑7中任一所述方法。权 利 要 求 书 1/1 页 2 CN 114926676 A 2基于特征空间有效面积的 自适应加权长尾分类方 法及装置 技术领域 [0001]本发明涉及图像数据分类领域, 具体为一种基于特征空间有效面积的自适应加权 长尾分类方法及装置 。 背景技术 [0002]随着数据采集技术的快速发展, 深度神经网络在大规模均衡分布的训练数据上可 以取得优异 性能。 然而, 在现实场景中数据通常是呈长尾分布的, 即大多 数类别属于尾部类 别仅占有少量样 本, 少数头部类别具有 大多数样本。 近几年, 针对长尾 分布的数据图像分类 是图像领域的一个重要任务, 有效利用长尾数据训练出好的分类器受到了越来越多的关 注。 [0003]现有的方法一般是 再平衡策略和重加权方法来 提高尾部类别的分类精度。 [0004]再平衡策略通过重采样或数据增强方法达到训练样本数量上的平衡, 包括重采样 和数据增强方法。 重采样方法通过对尾部类别进行过采样, 或者对头部类别进行欠采样获 得一个数据分布均匀的训练数据。 然而, 过采样可能会通过在尾部类中重复样本而导致过 拟合, 而欠采样可能会通过丢弃重要的头部数据而损害 特征表示。 为了缓解过拟合问题, 又 引入数据增强方法, 通过生 成新样本来增强尾类的类内多样性, 然而, 随着增强样本数量的 增加, 训练速度急剧减慢, 特别是对于大规模的数据集, 即使最新的方法可以通过隐式数据 增强可以降低消 耗, 但对于新生成的增强样本, 其合理性仍有待评估。 因此, 再平衡策略虽 然在一定程度上缓解了 分类超平面严重向尾部类倾斜的现象, 但是由于尾部类别样本数目 少, 类内多样性少, 使其 容易导致过拟合或增 加训练难度。 [0005]与再平衡相比, 重新加权更简单和轻量级, 它通过为尾部类分配更高的权重来影 响损失函数从而提高尾部类精度。 重加权方法在保持原有数据分布不变的情况下, 在计算 损失函数时给予尾部样本更大的惩罚以提高尾部样本的重要性, 包括样本级别和类别级别 的加权方法。 样本级别的加权操作分配给不同样本不同的权重。 大多数类别上 的的重加权 方法都是基于样本的数量来设计权重或边距。 然而, 公平训练的目标是使超平面均匀 地分 割特征空间, 而样本的数量不能代表特征空间的大小。 因此, 如何在保证即有效果又有效率 的情况下, 更好地划分特 征空间, 提升模型的性能仍是一个重要问题。 [0006]综上所述, 面对极端不平衡 的长尾数据, 简单有效地分割特征空间提升分类性能 是一个巨大挑战。 发明内容 [0007]本发明的目的在于设计一个基于特征空间有效面积的自适应加权长尾分类方法 及装置, 通过充分分析样本之间的相关关系, 从一个新的角度去估计各个类别的有效面积, 从而根据有效面积的加权操作可以更好的划分特征空间。 该方法分为两个阶段, 第一阶段 是在原始数据分布上使用交叉熵损失训练基本的特征提取器和分类器, 在第二阶段使用第 一阶段的模型特征抽取器提取训练数据的特征。 然后, 计算同一类别中的任意两个样本的说 明 书 1/10 页 3 CN 114926676 A 3
专利 基于特征空间有效面积的自适应加权长尾分类方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-24 01:00:14
上传分享
举报
下载
原文档
(1.3 MB)
分享
友情链接
T-NAHIEM 93—2023 麻醉科建设与设备配置.pdf
SN-T 4579-2016 进口汽车部件检验规程 铝合金车轮.pdf
GA-T 1561-2019 移动警务系统 总体技术要求.pdf
GB-T 31497-2024 信息技术 安全技术 信息安全管理 监视、测量、分析和评价.pdf
GB-T 35673-2017 工业通信网络 网络和系统安全 系统安全要求和安全等级.pdf
GB-T 25706-2010 矿山机械产品型号编制方法.pdf
GM-T 0042-2015 三元对等密码安全协议测试规范.pdf
T-GHDQ 89.1—2022 车载网络安全测试规范 第1部分: 车载CAN总线安全测试规范.pdf
DB51-T 2825-2021 放心舒心消费服务规范 第1部分:家装行业 四川省.pdf
T-QGCML 106—2021 生物基热拌用高性能沥青再生剂.pdf
YD-T 0219-2019 电信网和互联网数据安全评估规范.pdf
GM-T 0056-2018 多应用载体密码应用接口规范.pdf
T-GHDQ 1—2017 高寒地区纯电动乘用车技术条件.pdf
NB-T 10881—2021 水力发电厂火灾自动报警系统设计规范.pdf
DB11-T 1968-2022 中央厨房布局设置与管理规范 北京市.pdf
GB-T 4879-2016 防锈包装.pdf
SN-T 1306-2017 出入境人员预防接种或预防措施国际证书签发规程.pdf
全知科技 数据安全治理之数据安全风险评估白皮书 2021.pdf
GB-T 16277-2021 道路施工与养护机械设备 沥青混凝土摊铺机.pdf
GB-T 20984-2007 信息安全技术 信息安全风险评估规范.pdf
1
/
16
评价文档
赞助2.5元 点击下载(1.3 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。