专利 一种数据标注方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210928567.X (22)申请日 2022.08.03 (71)申请人浙江大华技术股份有限公司地址 310053 浙江省杭州市滨江区滨安路 1187号 (72)发明人王仁根　马媛媛　张朋　蔡丹平　张学涵　虞响　陈波扬　黄鹏　殷俊　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师杜晶 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种数据标注方法、装置、设备及介质 (57)摘要本申请涉及图像处理技术领域，具体涉及一种数据标注方法、装置、设备及介质，用于提高数据标注效率。该方法包括：基于第一数据集中的多张第一图像，确定第一图像中目标的类别，确定是否存在第二数据集，第二数据集包括多张带有标签的第二图像，标签用于指示目标在第二图像中的位置和/或目标的类别，第二图像中目标的类别与第一图像中目标的类别相同。若存在第二数据集，将第一图像输入训练后的目标检测模型进行预测，获得第一图像的标签，训练后的目标检测模型通过第二数据集对目标检测模型进行训练得到。该方法利用相似场景的第二数据集，快速获得训练后的目标检测模型，通过该模型来预测未标注图像的标签，从而提高数据标注效率。权利要求书3页说明书20页附图10页 CN 115409997 A 2022.11.29 CN 115409997 A 1.一种数据标注方法，其特征在于，包括：基于第一数据集中的多张第一图像，确定所述第一图像中目标的类别；确定是否存在第二数据集；所述第二数据集包括多张带有标签的第二图像，所述标签用于指示目标在所述第二图像中的位置和/或目标的类别，所述第二图像中目标的类别与所述第一图像中目标的类别相同；若存在所述第二数据集，将所述第一图像输入训练后的目标检测模型进行预测，获得所述第一图像的标签；其中，所述训练后的目标检测模型通过所述第二数据集对目标检测模型进行训练得到，所述第二数据集包括多张带有标签的第二图像，所述标签用于指示目标在所述第二图像中的位置和/或目标的类别，所述第二图像中目标的类别与所述第一图像中目标的类别相同。 2.如权利要求1所述的方法，其特征在于，在将所述第一图像输入训练后的目标检测模型进行预测，获得所述第一图像的标签之前，所述方法还包括：对任一张第二图像进行特征提取，获得所述任一张第二图像的特征，以及对所述任一张第二图像的特征进行预测，获得所述任一张第二图像的预测结果；对任一张第一图像进行特征提取，获得所述任一张第一图像的特征；根据所述任一张第一图像的特征和所述任一张第二图像的特征之间的第一误差、以及所述任一张第二图像的预测结果与对应标签之间的第二误差，调整所述目标检测模型的参数；直到达到最大迭代次数，获得所述训练后的目标检测模型。 3.如权利要求1所述的方法，其特征在于，将所述第一图像输入训练后的目标检测模型进行预测，获得所述第一图像的标签，包括：若所述训练后的目标检测模型未达到可用性指标值，则获取所述第一数据集中人工标注的部分图像；其中，所述第一数据集包括所述部分图像和未标注的剩余图像；基于所述部分图像，对所述训练后的目标检测模型的参数进行调整，直到调整后的目标检测模型达到所述可用性指标值；将所述剩余图像输入所述调整后的目标检测模型进行预测，获得所述剩余图像的标签。 4.如权利要求1所述的方法，其特征在于，在确定是否存在第二数据集之后，所述方法还包括：若不存在所述第二数据集，则获取所述第一数据集中人工标注的部分图像；其中，所述第一数据集包括所述部分图像和未标注的剩余图像；将所述剩余图像输入训练后的目标检测模型进行预测，获得所述剩余图像的标签；其中，所述训练后的目标检测模型通过所述部分图像和所述剩余图像对所述目标检测模型进行训练得到。 5.如权利要求4所述的方法，其特征在于，将所述剩余图像输入所述训练后的目标检测模型进行预测，获得所述剩余图像的标签，包括：若所述训练后的目标检测模型未达到可用性指标值，则对所述部分图像进行傅里叶变换，获得第一幅频图和第一相位图，以及对所述剩余图像进行傅里叶变换，获得第二幅频图和第二相位图；权　利　要　求　书 1/3 页 2 CN 115409997 A 2对所述第一幅频图和所述第二幅频图取均值，获得均值幅频图，以及对所述均值幅频图和所述第一相位图进行傅里叶逆变换，获得增强后的部分图像；基于所述增强后的部分图像，对所述训练后的目标检测模型进行调整，直到调整后的目标检测模型达到所述可用性指标值；将所述剩余图像输入所述调整后的目标检测模型进行预测，获得所述剩余图像的标签。 6.如权利要求3或5所述的方法，其特征在于，将所述剩余图像输入所述调整后的目标检测模型进行预测，获得所述剩余图像的标签，包括：将所述剩余图像划分为多份图像子集；当i等于1时，将第 i份图像子集中各图像输入所述调整后的目标检测模型进行预测，获得所述第i份图像子集中各图像的标签。 7.如权利要求6所述的方法，其特征在于，在将所述剩余图像划分为多份图像子集之后，所述方法还包括：当i大于或等于2时，获取所述第i ‑1份图像子集中人工纠正且带有正确标签的图像，以及所述第i ‑1份图像子集对应的指标值；若所述第i ‑1份图像子集对应的指标值未达到饱和指标值，则基于所述人工纠正且带有正确标签的图像，对第i ‑1个增量模型进行训练，获得第i个增量模型；其中，当i等于2时，所述第i‑1个增量模型为所述调整后的目标检测模型，所述饱和指标值大于所述可用性指标值；将所述第 i份图像子集中各图像输入多个增量模型进行预测，获得所述第 i份图像子集中各图像的多个预测结果；其中，所述多个增量模型包括所述第i ‑1个增量模型和所述第i 个增量模型；对所述第 i份图像子集中各图像的多个预测结果进行加权求和，获得所述第 i份图像子集中各图像的标签。 8.如权利要求7所述的方法，其特征在于，在将所述第i份图像子集中各图像输入多个增量模型进行预测，获得所述第i份图像子集中各图像的多个预测结果之前，所述方法还包括：从所述部分图像中抽取样本图像，将所述样本图像分别输入所述多个增量模型进行预测，获得所述样本图像的多个预测结果；根据所述样本图像的多个预测结果以及对应标签，获得所述样本图像对应的多个指标值；对所述第 i份图像子集中各图像的多个预测结果进行加权求和，获得所述第 i份图像子集中各图像的标签，包括：基于所述多个指标值，对所述第 i份图像子集中各图像的多个预测结果进行加权求和，获得所述第i份图像子集中各图像的标签。 9.一种数据标注装置，其特征在于，包括：确定模块，用于基于第一数据集中的多张第一图像，确定所述第一图像中目标的类别；所述确定模块，还用于确定是否存在第二数据集；所述第二数据集包括多张带有标签的第二图像，所述标签用于指示目标在所述第二图像中的位置和/或目标的类别，所述第二权　利　要　求　书 2/3 页 3 CN 115409997 A 3

专利 一种数据标注方法、装置、设备及介质

专利一种数据标注方法、装置、设备及介质