standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211343932.7 (22)申请日 2022.10.31 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 汪诚愚 王小丹 黄俊  (74)专利代理 机构 北京展翼知识产权代理事务 所(特殊普通 合伙) 11452 专利代理师 张阳 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/58(2019.01) G06F 40/279(2020.01) G06K 9/62(2022.01) G06V 10/74(2022.01)G06V 10/778(2022.01) G06V 10/774(2022.01) (54)发明名称 视觉语言预训练模型的微调方法和图文检 索方法 (57)摘要 公开了一种视觉语言预训练模型的微调方 法和图文检索方法。 所述微调方法包括: 提取文 本中的实体和属性信息, 所述文本来自用于微调 模型的图像文本样本对; 构造基于所述实体和属 性信息构造的实体提示; 以及通过图像将所述实 体提示作为正样本的对比学习微调所述VLP 模型 的参数, 所述图像来自用于微调模 型的所述图像 文本样本对。 本发明的微调方法能够在无需重训 VLP模型的情况下实现图像 ‑文本实体的细粒度 对齐, 以优化图文检索性能。 具体地, 可以在微调 中通过对比学习和实体级掩模建模强调跨模态 的实体对齐, 并可以通过外部知识的引入进一步 提升性能。 可以通过重排序策略进一步改善图文 检索结果。 权利要求书2页 说明书14页 附图5页 CN 115391588 A 2022.11.25 CN 115391588 A 1.一种视 觉语言预训练VLP模型的微调方法, 包括: 提取文本中的实体和可视属性信息, 所述文本来自用于微调模型的图像文本样本对; 构造基于所述实体和可视属性信息构造的实体提 示; 将所述实体提示作为图像的正样本进行对比学习, 所述图像来自用于微调模型的所述 图像文本样本对; 以及 通过所述对比学习微调所述VLP模型的参数。 2.如权利要求1所述的方法, 还 包括: 基于第一损失函数微调所述VLP模型的参数, 其中, 所述第一损失函数包括: 表征同一训练批次中文本嵌入向量与对应图像的嵌入向量的相似度与同一训练批次 中其他文本的嵌入向量与该图像的嵌入向量的相似度差异的损失函数; 以及 表征同一训练批次中图像嵌入向量与对应文本的嵌入向量的相似度与同一训练批次 中其他图像的嵌入向量与该文本的嵌入向量的相似度差异的损失函数。 3.如权利要求2所述的方法, 其中, 通过 所述对比学习微调所述VLP模型的参数包括: 基于第二损失函数微调所述VLP模型的参数, 其中, 所述第二损失函数包括: 表征所述实体提示的嵌入向量与所述图像的嵌入向量的相似度与同一训练批次中其 他文本的嵌入向量与所述图像的嵌入向量的相似度差异的损失函数。 4.如权利要求3所述的方法, 其中, 所述第二损失函数还 包括: 表征所述图像嵌入向量与所述实体提示的嵌入向量的相似度与同一训练批次中其他 图像的嵌入向量与所述实体提 示的嵌入向量的相似度差异的损失函数。 5.如权利要求3所述的方法, 其中, 所述第一损失函数还 包括: 表征带有掩码实体的所述实体提示的嵌入向量与所述图像的嵌入向量的相似度与不 带有掩码实体的所述实体提示的嵌入向量与所述图像的嵌入向量的相似度差异的损失函 数。 6.如权利要求1所述的方法, 还 包括: 识别同一训练批次的图像样本对中所有图像包 含的实体并生成视 觉对象标签集; 从外部对象‑图像库中查找与每 个视觉对象标签各自对应的关联图像; 为每个视觉对象标签构造标签文本; 以及 基于针对所述标签文本和关联图像进行对比学习的第三损失函数, 微调所述VLP模型 的参数。 7.如权利要求6所述的方法, 其中, 所述第三损失函数包括: 用于优化每 个标签文本对其关联图像的匹配的损失函数; 用于表征带有掩码实体的所述标签文本的嵌入向量与其关联图像的嵌入向量的相似 度与不带有掩码实体的所述标签文本的嵌入向量与其关联图像的嵌入向量的相似度差异 的损失函数。 8.如权利要求1所述的方法, 还 包括: 识别所述图像中的实体和所述文本中的实体; 基于随机掩码所述图像或文本中的实体构造第四损失函数; 以及 基于所述第四损失函数微调所述VLP模型的参数, 其中, 所述第四损失函数表征随机掩 码前后的图像或文本的嵌入表征与原 始文本或图像的嵌入表征的相似性差异。权 利 要 求 书 1/2 页 2 CN 115391588 A 29.一种图文检索方法, 用于在输入文本时检索图像或是在输入图像时检索文本, 所述 方法包括: 获取用户输入的文本或图像信息; 将所述文本或图像信息送入根据如权利要求1 ‑8中任一项所述的方法获取的VLP模型; 所述VLP模型基于所述文本或图像信息推理出多个图像候选或多个文本候选; 以及 向所述用户提供所述多个图像候选中的一个或多个或所述多个文本候选中的一个或 多个。 10.如权利要求9所述的方法, 还 包括: 基于推理出的多个图像候选或文本候选进行反向检索; 以及 基于上述反向检索的结果, 确定向用户提供的图像候选或文本候选的排序。 11.一种图文检索方法, 用于在输入文本时检索图像或是在输入图像时检索文本, 所述 方法包括: 获取用户输入的文本或图像信息; 将所述文本或图像信息送入VLP模型; 所述VLP模型基于所述文本或图像信息推理出的多个图像候选或文本候选; 对推理出的多个图像候选或文本候选进行重新 排序; 以及 向所述用户提供 经重新排序的所述多个所述图像候选或所述文本候选, 其中, 对推理出的多个图像候选或文本候选进行重新 排序包括: 在用户输入文本时, 提取 所述文本中的实体和 属性信息; 构造由属性和实体构成的实体提 示; 通过所述多个图像候选与 所述实体提示的相似性对所述多个图像候选进行重排序; 或 者 在用户输入图像时, 提取多个文本候选中的实体和 属性信息; 构造由属性和实体构成的实体提 示; 通过所述图像与所述多个文本候选对应的实体提示的相似性对所述多个文本候选进 行重排序。 12.一种计算设备, 包括: 处理器; 以及 存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执行时, 使所述处理 器执行如权利要求1至1 1中任何一项所述的方法。 13.一种非暂时性机器可读存储介质, 其上存储有可执行代码, 当所述可执行代码被电 子设备的处 理器执行时, 使所述处 理器执行如权利要求1至1 1中任何一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115391588 A 3

.PDF文档 专利 视觉语言预训练模型的微调方法和图文检索方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 视觉语言预训练模型的微调方法和图文检索方法 第 1 页 专利 视觉语言预训练模型的微调方法和图文检索方法 第 2 页 专利 视觉语言预训练模型的微调方法和图文检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:23:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。