standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211343932.7 (22)申请日 2022.10.31 (71)申请人 阿里巴巴 (中国) 有限公司 地址 311121 浙江省杭州市余杭区五常街 道文一西路969号3幢5层5 54室 (72)发明人 汪诚愚 王小丹 黄俊 (74)专利代理 机构 北京展翼知识产权代理事务 所(特殊普通 合伙) 11452 专利代理师 张阳 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/58(2019.01) G06F 40/279(2020.01) G06K 9/62(2022.01) G06V 10/74(2022.01)G06V 10/778(2022.01) G06V 10/774(2022.01) (54)发明名称 视觉语言预训练模型的微调方法和图文检 索方法 (57)摘要 公开了一种视觉语言预训练模型的微调方 法和图文检索方法。 所述微调方法包括: 提取文 本中的实体和属性信息, 所述文本来自用于微调 模型的图像文本样本对; 构造基于所述实体和属 性信息构造的实体提示; 以及通过图像将所述实 体提示作为正样本的对比学习微调所述VLP 模型 的参数, 所述图像来自用于微调模 型的所述图像 文本样本对。 本发明的微调方法能够在无需重训 VLP模型的情况下实现图像 ‑文本实体的细粒度 对齐, 以优化图文检索性能。 具体地, 可以在微调 中通过对比学习和实体级掩模建模强调跨模态 的实体对齐, 并可以通过外部知识的引入进一步 提升性能。 可以通过重排序策略进一步改善图文 检索结果。 权利要求书2页 说明书14页 附图5页 CN 115391588 A 2022.11.25 CN 115391588 A 1.一种视 觉语言预训练VLP模型的微调方法, 包括: 提取文本中的实体和可视属性信息, 所述文本来自用于微调模型的图像文本样本对; 构造基于所述实体和可视属性信息构造的实体提 示; 将所述实体提示作为图像的正样本进行对比学习, 所述图像来自用于微调模型的所述 图像文本样本对; 以及 通过所述对比学习微调所述VLP模型的参数。 2.如权利要求1所述的方法, 还 包括: 基于第一损失函数微调所述VLP模型的参数, 其中, 所述第一损失函数包括: 表征同一训练批次中文本嵌入向量与对应图像的嵌入向量的相似度与同一训练批次 中其他文本的嵌入向量与该图像的嵌入向量的相似度差异的损失函数; 以及 表征同一训练批次中图像嵌入向量与对应文本的嵌入向量的相似度与同一训练批次 中其他图像的嵌入向量与该文本的嵌入向量的相似度差异的损失函数。 3.如权利要求2所述的方法, 其中, 通过 所述对比学习微调所述VLP模型的参数包括: 基于第二损失函数微调所述VLP模型的参数, 其中, 所述第二损失函数包括: 表征所述实体提示的嵌入向量与所述图像的嵌入向量的相似度与同一训练批次中其 他文本的嵌入向量与所述图像的嵌入向量的相似度差异的损失函数。 4.如权利要求3所述的方法, 其中, 所述第二损失函数还 包括: 表征所述图像嵌入向量与所述实体提示的嵌入向量的相似度与同一训练批次中其他 图像的嵌入向量与所述实体提 示的嵌入向量的相似度差异的损失函数。 5.如权利要求3所述的方法, 其中, 所述第一损失函数还 包括: 表征带有掩码实体的所述实体提示的嵌入向量与所述图像的嵌入向量的相似度与不 带有掩码实体的所述实体提示的嵌入向量与所述图像的嵌入向量的相似度差异的损失函 数。 6.如权利要求1所述的方法, 还 包括: 识别同一训练批次的图像样本对中所有图像包 含的实体并生成视 觉对象标签集; 从外部对象‑图像库中查找与每 个视觉对象标签各自对应的关联图像; 为每个视觉对象标签构造标签文本; 以及 基于针对所述标签文本和关联图像进行对比学习的第三损失函数, 微调所述VLP模型 的参数。 7.如权利要求6所述的方法, 其中, 所述第三损失函数包括: 用于优化每 个标签文本对其关联图像的匹配的损失函数; 用于表征带有掩码实体的所述标签文本的嵌入向量与其关联图像的嵌入向量的相似 度与不带有掩码实体的所述标签文本的嵌入向量与其关联图像的嵌入向量的相似度差异 的损失函数。 8.如权利要求1所述的方法, 还 包括: 识别所述图像中的实体和所述文本中的实体; 基于随机掩码所述图像或文本中的实体构造第四损失函数; 以及 基于所述第四损失函数微调所述VLP模型的参数, 其中, 所述第四损失函数表征随机掩 码前后的图像或文本的嵌入表征与原 始文本或图像的嵌入表征的相似性差异。权 利 要 求 书 1/2 页 2 CN 115391588 A 29.一种图文检索方法, 用于在输入文本时检索图像或是在输入图像时检索文本, 所述 方法包括: 获取用户输入的文本或图像信息; 将所述文本或图像信息送入根据如权利要求1 ‑8中任一项所述的方法获取的VLP模型; 所述VLP模型基于所述文本或图像信息推理出多个图像候选或多个文本候选; 以及 向所述用户提供所述多个图像候选中的一个或多个或所述多个文本候选中的一个或 多个。 10.如权利要求9所述的方法, 还 包括: 基于推理出的多个图像候选或文本候选进行反向检索; 以及 基于上述反向检索的结果, 确定向用户提供的图像候选或文本候选的排序。 11.一种图文检索方法, 用于在输入文本时检索图像或是在输入图像时检索文本, 所述 方法包括: 获取用户输入的文本或图像信息; 将所述文本或图像信息送入VLP模型; 所述VLP模型基于所述文本或图像信息推理出的多个图像候选或文本候选; 对推理出的多个图像候选或文本候选进行重新 排序; 以及 向所述用户提供 经重新排序的所述多个所述图像候选或所述文本候选, 其中, 对推理出的多个图像候选或文本候选进行重新 排序包括: 在用户输入文本时, 提取 所述文本中的实体和 属性信息; 构造由属性和实体构成的实体提 示; 通过所述多个图像候选与 所述实体提示的相似性对所述多个图像候选进行重排序; 或 者 在用户输入图像时, 提取多个文本候选中的实体和 属性信息; 构造由属性和实体构成的实体提 示; 通过所述图像与所述多个文本候选对应的实体提示的相似性对所述多个文本候选进 行重排序。 12.一种计算设备, 包括: 处理器; 以及 存储器, 其上存储有可执行代码, 当所述可执行代码被所述处理器执行时, 使所述处理 器执行如权利要求1至1 1中任何一项所述的方法。 13.一种非暂时性机器可读存储介质, 其上存储有可执行代码, 当所述可执行代码被电 子设备的处 理器执行时, 使所述处 理器执行如权利要求1至1 1中任何一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115391588 A 3
专利 视觉语言预训练模型的微调方法和图文检索方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:23:55
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
GB-T 9473-2022 读写作业台灯性能要求.pdf
GB-T 23997-2009 室内装饰装修用溶剂型聚氨酯木器涂料.pdf
DB6103-T 23-2020 公共机构节能工作考核规范 宝鸡市.pdf
GB-T 19267.1-2008 刑事技术微量物证的理化检验 第1部分:红外吸收光谱法.pdf
GB-T 33134-2023 信息安全技术 公共域名服务系统安全要求.pdf
DB34-T 4367-2023 民政领域政府购买服务操作指南 安徽省.pdf
GB-T 5153-2016 变形镁及镁合金牌号和化学成分.pdf
GB-T 30942-2014 化妆品中禁用物质乙二醇甲醚、乙二醇乙醚及二乙二醇甲醚的测定 气相色谱法.pdf
GW0014-2017 国家电子政务工程项目 应用软件第三方测试规范.pdf
中国移动 中移链DDC白皮书 2022 .pdf
NY-T 1520-2021 木薯.pdf
GB-T 42140-2022 信息技术 云计算 云操作系统性能测试指标和度量方法.pdf
网络与信息安全系统事件应急预案.doc
GB-T 5195.1-2017 萤石 氟化钙含量的测定 EDTA滴定法和蒸馏-电位滴定法.pdf
GB-T 7814-2017 工业用异丙醇.pdf
GB-T 42632-2023 海洋生态环境水下有缆在线监测系统技术要求.pdf
DB14-T 281-2021 水泵装置节能技术导则 山西省.pdf
GB-T 23853-2022 卤水碳酸锂.pdf
数据安全和个人信息保护社会责任指南2.1实施.pdf
GB-T 36377-2018 计量器具识别编码.pdf
1
/
3
22
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。