专利 一种基于多模态预训练持续学习的目标检测优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211545371.9 (22)申请日 2022.12.05 (71)申请人杭州联汇科技股份有限公司地址 310052 浙江省杭州市滨江区长河街道秋溢路399号3号楼四层、五层申请人宏龙科技（杭州）有限公司 (72)发明人张倩倩　张璐　赵天成　陆骁鹏　 (74)专利代理机构杭州知见专利代理有限公司 33295 专利代理师卢金元 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/25(2022.01)G06V 10/82(2022.01) (54)发明名称一种基于多模态预训练持续学习的目标检测优化方法 (57)摘要本发明公开了一种基于多模态预训练持续学习的目标检测优化方法，其包括以下步骤： S1、提取表征向量； S2、计算平均距离； S3、目标检测结果过滤优化； S4、持续学习。本方案可以对目标检测结果进行优化，从而达到在不需要更新上游大模型的基础上，以极低的成本提升预训练大模型在目标识别的精准度，节省模型重新训练迭代的成本，消除基础模型的频繁更新对下游任务造成的影响。本方案适用于计算机视觉领域。权利要求书3页说明书6页附图1页 CN 115546590 A 2022.12.30 CN 115546590 A 1.一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，包括以下步骤： S1、提取表征向量：将对图片i进行目标检测所得到的包含目标j的结果输入训练后的表征提取模型，获得目标j的表征向量； S2、计算平均距离：知识库包括正表征库和负表征库；计算目标j的表征向量与正表征库中的每个表征向量的余弦距离，并取最大的前K个计算平均值得到正平均距离d_ij_pos；计算目标j的表征向量与负表征库中的每个表征向量的余弦距离，并取最大的前K个计算平均值得到负平均距离d_ij_neg； K为预设的超参数； S3、目标检测结果过滤优化：比较 d_ij_pos和d_ij_neg，如果d_ij_pos< d_ij_neg，则将此目标j的检测结果过滤；如果d_ij_pos>d_ij_neg，则将此目标j的检测结果保留； S4、持续学习：对于正表征库的每个表征向量，计算其与正表征库中其它表征向量的余弦距离，并取最大的前K个计算平均值得到此表征向量的平均距离，对正表征库的所有表征向量的平均距离再求平均值得到正库平均距离c_pos；对于负表征库的每个表征向量，计算其与负表征库中其它表征向量的余弦距离，并取最大的前K个计算平均值得到此表征向量的平均距离，对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg；对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征向量纳入正表征库；对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos , 则将此目标j的表征向量纳入负表征库。 2.根据权利要求1所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，所述表征提取模型包括图像编码器和特征金字塔网络，图像编码器为主干部分，目标检测所得到的包含目标j的结果包括图片i和目标j区域图片；目标j的表征向量提取过程具体为： S101、将图片i输入到作为主干部分的图像编码器，抽取每个输出层输出的特征得到图片i的整体多层特征图； S102、依据目标j区域图片在图片i中的位置，从整体多层特征图中截取得到目标多层特征图； S103、使用特征金字塔网络对目标多层特征图进行提取池化，得到目标j的表征向量。 3.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，表征提取模型的训练时引入文本编码器和教师图像编码器，文本编码器为现有的文本特征提取模型，教师图像编码器为现有的训练后的图像特征提取模型；表征提取模型的训练时的损失函数为： L=Lcntrst+Ldist+Lcntrst‑img 其中， Lcntrst为目标图文对比损失，计算公式如下：式中， N为训练所用的样本总数，训练所用的样本包括整体图像、整体图像的描述文本、目标区域图片和目标的描述文本， v_m是第m个样本的目标区域图片经过表征提取模型后得到的图像表征， l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征， p权　利　要　求　书 1/3 页 2 CN 115546590 A 2(v_m,l_m)的计算公式如下：式中， S为计算括号中两个对象的相似度， τ为温度超参数， Nri为同一批训练所用样本中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集合； S的计算公式为：式中， T表示转置，双竖线表示求向量长度，即n orm2； Ldist为图片自监督蒸馏损失，计算公式如下：式中， LKL表示计算Kullback ‑Leibler散度， q_m为第m个样本的整体图像经过图像编码器后再经过指数归一化得到的被识别为同一批训练样本中每个整体图像所属类别的概率； q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别为整体图像自身所属类别的概率； Lcntrst‑img为图片级别自监督对比损失： p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征， l_m_img为第 m个样本的整体图像的描述文本输入文本编码器后得到的整图描述文本表征；通过上述训练任务，模型通过反向传播的方式进行训练优化。 4.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，步骤S02中，余弦距离的计算公式为：其中， x=(x1,x2,…,xn)表示目标表征向量， y=(y1,y2,…,yn)表示知识库中的表征向量， n是向量的维度。 5.根据权利要求3所述的一种基于多模态预训练持续学习的目标检测优化方法，其特征在于，知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结权　利　要　求　书 2/3 页 3 CN 115546590 A 3

专利 一种基于多模态预训练持续学习的目标检测优化方法

专利一种基于多模态预训练持续学习的目标检测优化方法