专利 视觉语言预训练模型的微调方法和图文检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211343932.7 (22)申请日 2022.10.31 (71)申请人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人汪诚愚　王小丹　黄俊　 (74)专利代理机构北京展翼知识产权代理事务所(特殊普通合伙) 11452 专利代理师张阳 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/58(2019.01) G06F 40/279(2020.01) G06K 9/62(2022.01) G06V 10/74(2022.01)G06V 10/778(2022.01) G06V 10/774(2022.01) (54)发明名称视觉语言预训练模型的微调方法和图文检索方法 (57)摘要公开了一种视觉语言预训练模型的微调方法和图文检索方法。所述微调方法包括：提取文本中的实体和属性信息，所述文本来自用于微调模型的图像文本样本对；构造基于所述实体和属性信息构造的实体提示；以及通过图像将所述实体提示作为正样本的对比学习微调所述VLP 模型的参数，所述图像来自用于微调模型的所述图像文本样本对。本发明的微调方法能够在无需重训 VLP模型的情况下实现图像 ‑文本实体的细粒度对齐，以优化图文检索性能。具体地，可以在微调中通过对比学习和实体级掩模建模强调跨模态的实体对齐，并可以通过外部知识的引入进一步提升性能。可以通过重排序策略进一步改善图文检索结果。权利要求书2页说明书14页附图5页 CN 115391588 A 2022.11.25 CN 115391588 A 1.一种视觉语言预训练VLP模型的微调方法，包括：提取文本中的实体和可视属性信息，所述文本来自用于微调模型的图像文本样本对；构造基于所述实体和可视属性信息构造的实体提示；将所述实体提示作为图像的正样本进行对比学习，所述图像来自用于微调模型的所述图像文本样本对；以及通过所述对比学习微调所述VLP模型的参数。 2.如权利要求1所述的方法，还包括：基于第一损失函数微调所述VLP模型的参数，其中，所述第一损失函数包括：表征同一训练批次中文本嵌入向量与对应图像的嵌入向量的相似度与同一训练批次中其他文本的嵌入向量与该图像的嵌入向量的相似度差异的损失函数；以及表征同一训练批次中图像嵌入向量与对应文本的嵌入向量的相似度与同一训练批次中其他图像的嵌入向量与该文本的嵌入向量的相似度差异的损失函数。 3.如权利要求2所述的方法，其中，通过所述对比学习微调所述VLP模型的参数包括：基于第二损失函数微调所述VLP模型的参数，其中，所述第二损失函数包括：表征所述实体提示的嵌入向量与所述图像的嵌入向量的相似度与同一训练批次中其他文本的嵌入向量与所述图像的嵌入向量的相似度差异的损失函数。 4.如权利要求3所述的方法，其中，所述第二损失函数还包括：表征所述图像嵌入向量与所述实体提示的嵌入向量的相似度与同一训练批次中其他图像的嵌入向量与所述实体提示的嵌入向量的相似度差异的损失函数。 5.如权利要求3所述的方法，其中，所述第一损失函数还包括：表征带有掩码实体的所述实体提示的嵌入向量与所述图像的嵌入向量的相似度与不带有掩码实体的所述实体提示的嵌入向量与所述图像的嵌入向量的相似度差异的损失函数。 6.如权利要求1所述的方法，还包括：识别同一训练批次的图像样本对中所有图像包含的实体并生成视觉对象标签集；从外部对象‑图像库中查找与每个视觉对象标签各自对应的关联图像；为每个视觉对象标签构造标签文本；以及基于针对所述标签文本和关联图像进行对比学习的第三损失函数，微调所述VLP模型的参数。 7.如权利要求6所述的方法，其中，所述第三损失函数包括：用于优化每个标签文本对其关联图像的匹配的损失函数；用于表征带有掩码实体的所述标签文本的嵌入向量与其关联图像的嵌入向量的相似度与不带有掩码实体的所述标签文本的嵌入向量与其关联图像的嵌入向量的相似度差异的损失函数。 8.如权利要求1所述的方法，还包括：识别所述图像中的实体和所述文本中的实体；基于随机掩码所述图像或文本中的实体构造第四损失函数；以及基于所述第四损失函数微调所述VLP模型的参数，其中，所述第四损失函数表征随机掩码前后的图像或文本的嵌入表征与原始文本或图像的嵌入表征的相似性差异。权　利　要　求　书 1/2 页 2 CN 115391588 A 29.一种图文检索方法，用于在输入文本时检索图像或是在输入图像时检索文本，所述方法包括：获取用户输入的文本或图像信息；将所述文本或图像信息送入根据如权利要求1 ‑8中任一项所述的方法获取的VLP模型；所述VLP模型基于所述文本或图像信息推理出多个图像候选或多个文本候选；以及向所述用户提供所述多个图像候选中的一个或多个或所述多个文本候选中的一个或多个。 10.如权利要求9所述的方法，还包括：基于推理出的多个图像候选或文本候选进行反向检索；以及基于上述反向检索的结果，确定向用户提供的图像候选或文本候选的排序。 11.一种图文检索方法，用于在输入文本时检索图像或是在输入图像时检索文本，所述方法包括：获取用户输入的文本或图像信息；将所述文本或图像信息送入VLP模型；所述VLP模型基于所述文本或图像信息推理出的多个图像候选或文本候选；对推理出的多个图像候选或文本候选进行重新排序；以及向所述用户提供经重新排序的所述多个所述图像候选或所述文本候选，其中，对推理出的多个图像候选或文本候选进行重新排序包括：在用户输入文本时，提取所述文本中的实体和属性信息；构造由属性和实体构成的实体提示；通过所述多个图像候选与所述实体提示的相似性对所述多个图像候选进行重排序；或者在用户输入图像时，提取多个文本候选中的实体和属性信息；构造由属性和实体构成的实体提示；通过所述图像与所述多个文本候选对应的实体提示的相似性对所述多个文本候选进行重排序。 12.一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至1 1中任何一项所述的方法。 13.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至1 1中任何一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115391588 A 3

专利 视觉语言预训练模型的微调方法和图文检索方法

专利视觉语言预训练模型的微调方法和图文检索方法