专利展示对象识别模型的训练方法、装置和电子设备 -在线下载 -AI解读-standardshub.tech

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210734938.0 (22)申请日 2022.06.20 (71)申请人北京达佳互联信息技术有限公司地址 100085 北京市海淀区上地西路6号1 幢1层101D1-7 (72)发明人邓桂林　徐路　谢东霖　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师唐敏 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01) G06T 9/00(2006.01)G06T 5/00(2006.01) (54)发明名称展示对象识别模型的训练方法、装置和电子设备 (57)摘要本公开关于一种展示对象识别模型的训练方法、装置、电子设备、存储介质以及计算机程序产品，该方法包括：获取第一训练样本集，第一训练样本集包含训练样本对，每个训练样本对包含图像数据和文本数据；根据图像编码器、文本编码器对训练样本对进行特征提取得到编码特征对；根据多模态编码器对编码特征对进行特征融合得到融合编码特征；确定编码特征对的相似度关系，根据相似度关系、融合编码特征和融合特征判别算法确定融合特征判别结果，基于融合特征判别结果对图像编码器、文本编码器和多模态编码器进行训练；根据训练的图像编码器、文本编码器、多模态编码器和分类任务模型构建展示对象识别模型。采用本方法提高了展示对象识别结果的准确性。权利要求书3页说明书18页附图7页 CN 115100472 A 2022.09.23 CN 115100472 A 1.一种展示对象识别模型的训练方法，其特征在于，所述方法包括：获取第一训练样本集，所述第一训练样本集中包含多个训练样本对，每个所述训练样本对包含展示对象的图像数据和文本数据；根据图像编码器、文本编码器对所述训练样本集中的多个训练样本对进行特征提取，得到多个编码特征对，每一所述编码特征对中包含图像编码特征和文本编码特征；根据多模态编码器对每一所述编码特征对进行特征融合，得到融合编码特征；根据每一所述编码特征对，确定所述图像编码特征和所述文本编码特征间的相似度关系，并根据所述相似度关系、所述融合编码特征以及融合特征判别算法，确定融合特征判别结果，基于所述融合特征判别结果对所述图像编码器、所述文本编码器以及所述多模态编码器进行预训练；所述融合特征判别结果表征融合特征处理结果与预设的融合条件间的损失情况；根据预训练的所述图像编码器、所述文本编码器和所述多模态编码器、以及分类任务模型，构建展示对象识别模型。 2.根据权利要求1所述的展示对象识别模型的训练方法，其特征在于，所述训练样本对类型包括正样本对类型和负样本对类型，所述根据每一所述编码特征对，确定所述图像编码特征和所述文本编码特征间的相似度关系，包括：计算每一所述编码特征对中的所述图像编码特征和所述文本编码特征间的相似度；根据所述第一训练样本集中的样本对类型和所述相似度，构建相似度矩阵。 3.根据权利要求2所述的展示对象识别模型的训练方法，其特征在于，所述融合特征判别算法包括融合效果分类算法，所述训练样本对包括正样本对和负样本对，所述根据所述相似度关系、所述融合编码特征以及融合特征判别算法，确定融合特征判别结果，包括：根据所述相似度矩阵，在所述训练样本对中确定每一所述正样本对对应的难负样本对；所述难负样本对是与所述正样本对满足预设相似度条件的训练样本对；根据所述正样本对的融合编码特征、所述难负样本对的融合编码特征以及所述融合效果分类算法，确定所述正样本对和所述难负样本对的融合编码特征的分类处理结果，基于所述分类处理结果与所述训练样本对类型，确定融合特征判别结果。 4.根据权利要求1至3中任一项所述的展示对象识别模型的训练方法，其特征在于，所述融合特征判别算法包括掩膜重建算法，所述训练样本对包括正样本对和负样本对，所述根据所述相似度关系、所述融合编码特征以及融合特征判别算法，确定融合特征判别结果，包括：在所述正样本对的所述融合编码特征中，确定图像特征块与文本标识间的相似度，并将相似度最高的所述图像特征块与所述文本标识，确定为目标图像特征块和目标文本标识；对所述目标图像特征块进行掩膜处理，得到图像掩膜数据，并根据所述图像掩膜数据和所述目标文本标识构建图像掩膜数据组；对所述目标文本标识进行掩膜处理，得到文本掩膜数据，并根据所述文本掩膜数据和所述目标图像特征块构建文本掩膜数据组；根据所述图像掩膜数据组中的所述目标文本标识，对所述图像掩膜数据进行图像重建，得到图像重建结果，将所述图像重建结果与初始的所述目标图像特征块进行损失计算，得到第一判别结果；权　利　要　求　书 1/3 页 2 CN 115100472 A 2根据所述文本掩膜数据组中的所述目标图像特征块，对所述文本掩膜数据进行文本重建，得到文本重建结果，将所述文本重建结果与初始的所述目标文本标识进行损失计算，得到第二判别结果，所述第一判别结果和所述第二判别结果共同构成融合特征判别结果。 5.根据权利要求1所述的展示对象识别模型的训练方法，其特征在于，所述基于所述融合特征判别结果对所述图像编码器、所述文本编码器以及所述多模态编码器进行预训练，包括：判断所述融合特征判别结果是否满足预设的模型准确度条件；当所述融合特征判别结果满足所述模型准确度条件时，确定完成对所述图像编码器、所述文本编码器以及所述多模态编码器的预训练。 6.根据权利要求1所述的展示对象识别模型的训练方法，其特征在于，所述分类任务模型的训练过程包括：获取第二训练样本集，所述第二训练样本集中包含训练数据，所述训练数据包含图像数据和文本数据，且所述训练数据携带展示对象标注结果；将所述第二训练样本集输入至预训练的所述图像编码器、所述文本编码器和所述多模态数据编码器，确定融合编码特征；将所述融合编码特征输入至分类任务模型，得到展示对象识别结果，直至所述展示对象识别结果与所述展示对象标注结果间的损失值满足预设的损失条件，所述分类任务模型训练完成。 7.根据权利要求6所述的展示对象识别模型的训练方法，其特征在于，所述分类任务模型包括多专家网络模块以及多个分类任务层，所述将所述融合编码特征输入至分类任务模型，得到展示对象识别结果，包括：将所述融合编码特征输入至所述多专家网络模块，通过预设的分类处理策略，对所述融合编码特征进行加权处理，得到所述分类处理策略对应的特征处理结果；每一所述分类处理策略对应一个所述分类任务层；将各所述特征处理结果输入至对应的所述分类任务层，得到每一所述分类任务层输出的展示对象识别结果。 8.一种展示对象识别方法，其特征在于，所述方法包括：获取待识别的视频数据，所述视频数据包括图像数据和文本数据；将所述视频数据输入至展示对象识别模型中，得到展示对象识别结果；所述展示对象识别模型由上述权利要求1至7中任一项所述的展示对象识别模型的训练方法训练得到的。 9.根据权利要求8所述的展示对象识别方法，其特征在于，所述方法还包括：获取媒介信息视频数据；将所述媒介信息视频数据输入至所述展示对象识别模型中，得到所述媒介信息视频数据对应的展示对象识别结果；基于已浏览的视频数据对应的展示对象识别结果，为目标账户推送相同展示对象识别结果的媒介信息视频数据。 10.一种展示对象识别模型的训练装置，其特征在于，所述装置包括：获取单元，被配置为执行获取第一训练样本集，所述第一训练样本集中包含多个训练样本对，每个所述训练样本对包含展示对象的图像数据和文本数据；特征提取单元，被配置为执行根据图像编码器、文本编码器对所述训练样本集中的多权　利　要　求　书 2/3 页 3 CN 115100472 A 3

专利 展示对象识别模型的训练方法、装置和电子设备

专利展示对象识别模型的训练方法、装置和电子设备