(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211545371.9
(22)申请日 2022.12.05
(71)申请人 杭州联汇科技股份有限公司
地址 310052 浙江省杭州市滨江区长河街
道秋溢路399号3号楼四层、 五层
申请人 宏龙科技 (杭州) 有限公司
(72)发明人 张倩倩 张璐 赵天成 陆骁鹏
(74)专利代理 机构 杭州知见专利代理有限公司
33295
专利代理师 卢金元
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 10/25(2022.01)G06V 10/82(2022.01)
(54)发明名称
一种基于多模态预训练持续学习的目标检
测优化方法
(57)摘要
本发明公开了一种基于多模态预训练持续
学习的目标检测优化方法, 其包括以下步骤: S1、
提取表征向量; S2、 计算平均距离; S3、 目标检测
结果过滤优化; S4、 持续学习。 本方案可以对目标
检测结果进行优化, 从而达到在不需要更新上游
大模型的基础上, 以极低的成本提升预训练大模
型在目标识别的精准度, 节省模 型重新训练迭代
的成本, 消除基础模型的频繁更新对 下游任务造
成的影响。 本方案适用于 计算机视觉领域。
权利要求书3页 说明书6页 附图1页
CN 115546590 A
2022.12.30
CN 115546590 A
1.一种基于多模态预训练持续学习的目标检测优化方法, 其特 征在于, 包括以下步骤:
S1、 提取表征向量: 将对图片i进行目标检测所得到的包含目标j的结果输入训练后的
表征提取模型, 获得目标j的表征向量;
S2、 计算平均距离: 知识库包括正表征库和负表征库; 计算目标j的表征向量与正表征
库中的每个表征向量的余弦距离, 并取最大的前K个计算平均值得到正平均距离d_ij_pos;
计算目标j的表征向量与负表征库中的每个表征向量的余弦距离, 并取最大的前K个计算平
均值得到负平均距离d_ij_neg; K为预设的超参数;
S3、 目标检测结果过滤优化: 比较 d_ij_pos和d_ij_neg, 如果d_ij_pos< d_ij_neg, 则
将此目标j的检测结果过 滤; 如果d_ij_pos>d_ij_neg, 则将此目标j的检测结果保留;
S4、 持续学习: 对于正表征库的每个表征向量, 计算其与正表征库中其它表征向量的余
弦距离, 并取最大的前K个计算平均值得到此表征向量的平均距离, 对正表征库的所有表征
向量的平均距离再求平均值得到正库平均距离c_pos; 对于负表征库的每个表征向量, 计算
其与负表征库中其它表征向量的余弦距离, 并取最大 的前K个计算平均值得到此表征向量
的平均距离, 对负表征库的所有表征向量的平均距离再求平均值得到负库平均距离c_neg;
对每个被保留的目标j, 如果d_ij_pos<c_pos且 d_ij_neg>c_neg , 则将此目标j的表征
向量纳入正表征库; 对每个被过滤的目标j, 如果d_ij_neg<c_neg 且d_ij_pos>c_pos ,
则将此目标j的表征向量纳入负表征库。
2.根据权利要求1所述的一种基于多模态预训练持续学习的目标检测优化方法, 其特
征在于, 所述表征提取模型包括图像编 码器和特征金字塔网络, 图像编码 器为主干部 分, 目
标检测所 得到的包 含目标j的结果包括图片i和目标j区域图片;
目标j的表征向量 提取过程具体为:
S101、 将图片i输入到作 为主干部分的图像编码器, 抽取每个输出层输出的特征得到图
片i的整体多层特 征图;
S102、 依据目标j区域 图片在图片i中的位置, 从整体多层特征图中截取得到目标多层
特征图;
S103、 使用特 征金字塔网络对目标多层特 征图进行提取池化, 得到目标j的表征向量。
3.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法, 其
特征在于, 表征提取模型 的训练时引入文本编码器和教师图像编码器, 文本编码器为现有
的文本特征提取模型, 教师图像编码器为现有的训练后的图像特征提取模型; 表征提取模
型的训练时的损失函数为:
L=Lcntrst+Ldist+Lcntrst‑img
其中, Lcntrst为目标图文对比损失, 计算公式如下:
式中, N为训练所用的样本总数, 训练所用的样本包括整体图像、 整体图像的描述文本、
目标区域图片和目标的描述文本, v_m是第m个样 本的目标区域图片经过表征提取模型后得
到的图像表征, l_m是第m个样本的目标的描述文本经过文本编码器后得到的文本表征, p权 利 要 求 书 1/3 页
2
CN 115546590 A
2(v_m,l_m)的计算公式如下:
式中, S为计算括号中两个对象的相似度, τ为温度超参数, Nri为同一批训练所用样本
中除第m个样本之外的其它样本的目标的描述文本经过文本编码器后得到的文本表征集
合;
S的计算公式为:
式中, T表示 转置, 双竖线表示 求向量长度, 即n orm2;
Ldist为图片自监 督蒸馏损失, 计算公式如下:
式中, LKL表示计算Kullback ‑Leibler散度, q_m为第m个样本的整体图像经过图像编码
器后再经过指数归一化得到的被识别为同一批训练样本中每个整体图像所属类别的概率;
q_m_t为第m个样本中的整体图像经过教师图像编码器后再经过指数归一化得到的被识别
为整体图像自身所属类别的概 率;
Lcntrst‑img为图片级别自监 督对比损失:
p(v_m_img)为第m个样本的整体图像输入图像编码器后得到的整图表征, l_m_img为第
m个样本的整体图像的描述文本 输入文本编码器后得到的整图描述文本表征;
通过上述训练任务, 模型通过反向传播的方式进行训练优化。
4.根据权利要求1或2所述的一种基于多模态预训练持续学习的目标检测优化方法, 其
特征在于, 步骤S02中, 余弦距离的计算公式为:
其中, x=(x1,x2,…,xn)表示目标表征向量, y=(y1,y2,…,yn)表示知识库中 的表征向量,
n是向量的维度。
5.根据权利要求3所述的一种基于多模态预训练持续学习的目标检测优化方法, 其特
征在于, 知识库的原始建立来源于上游目标检测模型对图像的目标推理以及用户对识别结权 利 要 求 书 2/3 页
3
CN 115546590 A
3
专利 一种基于多模态预训练持续学习的目标检测优化方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:40上传分享