(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210928567.X
(22)申请日 2022.08.03
(71)申请人 浙江大华 技术股份有限公司
地址 310053 浙江省杭州市滨江区滨安路
1187号
(72)发明人 王仁根 马媛媛 张朋 蔡丹平
张学涵 虞响 陈波扬 黄鹏
殷俊
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
专利代理师 杜晶
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06T 7/73(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种数据标注方法、 装置、 设备及 介质
(57)摘要
本申请涉及图像处理技术领域, 具体涉及一
种数据标注方法、 装置、 设备及介质, 用于提高数
据标注效率。 该方法包括: 基于第一数据集中的
多张第一图像, 确定第一图像中目标的类别, 确
定是否存在第二数据集, 第二数据集包括多张带
有标签的第二图像, 标签用于指示目标在第二图
像中的位置和/或目标的类别, 第二图像中目标
的类别与第一图像中目标的类别相同。 若存在第
二数据集, 将第一图像输入训练后的目标检测模
型进行预测, 获得第一图像的标签, 训练后的目
标检测模型通过第二数据集对目标检测模型进
行训练得到。 该方法利用相似场景的第二数据
集, 快速获得训练后的目标检测模型, 通过该模
型来预测未标注图像的标签, 从而提高数据标注
效率。
权利要求书3页 说明书20页 附图10页
CN 115409997 A
2022.11.29
CN 115409997 A
1.一种数据标注方法, 其特 征在于, 包括:
基于第一数据集中的多张第一图像, 确定所述第一图像中目标的类别;
确定是否存在第二数据集; 所述第二数据集包括多张带有标签的第二图像, 所述标签
用于指示 目标在所述第二图像中的位置和/或目标 的类别, 所述第二图像中目标的类别与
所述第一图像中目标的类别相同;
若存在所述第二数据集, 将所述第一图像输入训练后的目标检测模型进行预测, 获得
所述第一图像的标签; 其中, 所述训练后的目标检测模型通过所述第二数据集对目标检测
模型进行训练得到, 所述第二数据集包括多张带有标签的第二图像, 所述标签用于指示 目
标在所述第二图像中的位置和/或目标 的类别, 所述第二图像中目标 的类别与所述第一图
像中目标的类别相同。
2.如权利要求1所述的方法, 其特征在于, 在将所述第 一图像输入训练后的目标检测模
型进行预测, 获得 所述第一图像的标签之前, 所述方法还 包括:
对任一张第二图像进行特征提取, 获得所述任一张第二图像的特征, 以及对所述任一
张第二图像的特 征进行预测, 获得 所述任一张第二图像的预测结果;
对任一张第一图像进行 特征提取, 获得 所述任一张第一图像的特 征;
根据所述任一张第 一图像的特征和所述任一张第 二图像的特征之间的第 一误差、 以及
所述任一张第二图像的预测结果与对应标签之 间的第二误差, 调整所述目标检测模型的参
数;
直到达到最大迭代次数, 获得 所述训练后的目标检测模型。
3.如权利要求1所述的方法, 其特征在于, 将所述第 一图像输入训练后的目标检测模型
进行预测, 获得 所述第一图像的标签, 包括:
若所述训练后的目标检测模型未达到可用性指标值, 则获取所述第 一数据集中人工标
注的部分图像; 其中, 所述第一数据集包括所述部分图像和未 标注的剩余图像;
基于所述部分图像, 对所述训练后的目标检测模型的参数进行调整, 直到调整后的目
标检测模型达 到所述可用性指标值;
将所述剩余图像输入所述调整后的目标检测模型进行预测, 获得所述剩余图像的标
签。
4.如权利要求1所述的方法, 其特征在于, 在确定是否存在第二数据集之后, 所述方法
还包括:
若不存在所述第 二数据集, 则获取所述第一数据集中人工标注的部分图像; 其中, 所述
第一数据集包括所述部分图像和未 标注的剩余图像;
将所述剩余图像输入训练后的目标检测模型进行预测, 获得所述剩余图像的标签; 其
中, 所述训练后的目标检测模型通过所述部分图像和所述剩余图像对所述目标检测模型进
行训练得到 。
5.如权利要求4所述的方法, 其特征在于, 将所述剩余图像输入所述训练后的目标检测
模型进行 预测, 获得 所述剩余图像的标签, 包括:
若所述训练后的目标检测模型未达到可用性指标值, 则对所述部分图像进行傅里叶变
换, 获得第一幅频图和第一相位图, 以及 对所述剩余图像进 行傅里叶变换, 获得第二幅频图
和第二相位图;权 利 要 求 书 1/3 页
2
CN 115409997 A
2对所述第一幅频图和所述第二幅频图取均值, 获得均值幅频图, 以及对所述均值幅频
图和所述第一相位图进行傅里叶逆变换, 获得增强后的部分图像;
基于所述增强后的部分图像, 对所述训练后的目标检测模型进行调整, 直到调整后的
目标检测模型达 到所述可用性指标值;
将所述剩余图像输入所述调整后的目标检测模型进行预测, 获得所述剩余图像的标
签。
6.如权利要求3或5所述的方法, 其特征在于, 将所述剩余图像输入所述调整后的目标
检测模型进行 预测, 获得 所述剩余图像的标签, 包括:
将所述剩余图像划分为多份图像子集;
当i等于1时, 将第 i份图像子集中各图像输入所述调整后的目标检测模型进行预测, 获
得所述第i份图像子集中各图像的标签。
7.如权利要求6所述的方法, 其特征在于, 在将所述剩余图像划分为多份图像子集之
后, 所述方法还 包括:
当i大于或等于2时, 获取所述第i ‑1份图像子集中人工纠正且带有正确标签的图像, 以
及所述第i ‑1份图像子集对应的指标值;
若所述第i ‑1份图像子集对应的指标值未达到饱和指标值, 则基于所述人工纠正且带
有正确标签的图像, 对第i ‑1个增量模 型进行训练, 获得第i个增量模 型; 其中, 当i等于2时,
所述第i‑1个增量模型为所述调整后的目标检测模型, 所述饱和指标值大于所述可用性指
标值;
将所述第 i份图像子集中各图像输入多个增量模型进行预测, 获得所述第 i份图像子集
中各图像的多个预测结果; 其中, 所述多个增量模型包括所述第i ‑1个增量模型和所述第i
个增量模型;
对所述第 i份图像子集中各图像的多个预测结果进行加权求和, 获得所述第 i份图像子
集中各图像的标签。
8.如权利要求7所述的方法, 其特征在于, 在将所述第i份图像子集中各图像输入多个
增量模型进 行预测, 获得所述第i份图像子集中各图像的多个预测结果之前, 所述方法还包
括:
从所述部分图像中抽取样本图像, 将所述样本图像分别 输入所述多个增量模型进行预
测, 获得所述样本图像的多个预测结果;
根据所述样本图像的多个预测结果以及对应标签, 获得所述样本图像对应的多个指标
值;
对所述第 i份图像子集中各图像的多个预测结果进行加权求和, 获得所述第 i份图像子
集中各图像的标签, 包括:
基于所述多个指标值, 对所述第 i份图像子集中各图像的多个预测结果进行加权求和,
获得所述第i份图像子集中各图像的标签。
9.一种数据标注装置, 其特 征在于, 包括:
确定模块, 用于基于第一数据集中的多张第一图像, 确定所述第一图像中目标的类别;
所述确定模块, 还用于确定是否存在第二数据集; 所述第二数据集包括多张带有标签
的第二图像, 所述标签用于指示目标在所述第二图像中的位置和/或目标的类别, 所述第二权 利 要 求 书 2/3 页
3
CN 115409997 A
3
专利 一种数据标注方法、装置、设备及介质
文档预览
中文文档
34 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共34页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:38:59上传分享