(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211266439.X (22)申请日 2022.10.17 (71)申请人 上海师范大学 地址 201418 上海市奉贤区海 湾旅游区海 思路100号上海师 范大学 (72)发明人 朱媛媛 王佳婧  (74)专利代理 机构 北京索邦智慧专利代理有限 公司 11879 专利代理师 李思奇 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/55(2019.01) G06F 40/194(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Tran sformer的细粒度跨模态图文 检索的模型 (57)摘要 本发明公开了一种基于Tran sformer的细粒 度跨模态图文检索的模型, 包括具体步骤如下, 使用FasterRCNN提取图像特征, 使用BERT 提取文 本特征, 使用一堆TransformerEncoder层构建 的, 既用于视觉数据管道, 也用于文本数据管道, TransformerEncoder以实体的序列或集合作为 输入, 它可以对这些实体进行推理, 而不考虑它 们的内在性质。 本发明通过为了在将视觉和文本 数据通道很好地分开, 在图像和句子的底层成 分, 即图像区域和单词之间进行细粒度匹配, 仅 在最终比对阶段合并来自两个域的信息, 保证了 这两个通道的信息丰富性, 有能够分别推理图像 和文本中元素之间的细粒度关系的图文检索模 型, 可以进一步降低网络复杂度, 这对整个体系 结构的稳定性和泛化能力同样具有重要的意 义。 权利要求书1页 说明书4页 附图1页 CN 115544294 A 2022.12.30 CN 115544294 A 1.一种基于Transformer的细 粒度跨模态图文检索的模型, 其特征在于, 所述具体步骤 如下: 使用Faster  RCNN提取图像特征, 使用BERT提取文本特征, 使用一堆Transformer   Encoder层构建的, 既用于视觉数据管道, 也用于文本 数据管道, Transformer  Encoder以实 体的序列或集合作为输入, 它可以对这些实体进 行推理, 而不考虑它们的内在性质, 将图像 中的显著区域视为视觉实体, 将出现的单词视为文本实体, 通过汇集区域词的相似度矩阵 得到最终的图文的相似度得分。 2.根据权利要求1所述的一种基于Transformer的细 粒度跨模态图文检索的模型, 其特 征在于, 所述文本处理是使用BERT来提取词嵌入, BERT已经使用多层转换器编码器来处理 句子中的单词, 并通过同样强大的自我注意机制来捕获它们的功能关系, BERT嵌入在一些 一般的自然语言处理任务上进行了训练, 如句 子预测或句 子分类, 并在许多下游自然语言 任务中展示了最先进的结果, 与word2v ec不同, BERT嵌入捕获了每个单词出现的上下文, 因 此, 每个嵌入的单词都带有关于周围上 下文的信息, 这些信息可能会因文本而异。权 利 要 求 书 1/1 页 2 CN 115544294 A 2一种基于 Transformer的细粒度跨模 态图文检索的模型 技术领域 [0001]本发明涉及跨模态图文检索领域, 特别涉及一种基于Transformer的细粒度跨模 态图文检索的模型。 背景技术 [0002]互联网上存在着大量不同模态的数据, 比如图像、 文本、 语音和视频等。 当这些不 同的模态描绘的是同一件事物时, 人们称之为跨模态数据。 随着互联网的普及发展, 人类开 始进入大数据时代, 伴 随着大规模不同模态的数据的产生与发展, 各种 各样的模态形式已 经成为人类理解世界的主要形式。 传统的单模态检索只能在一种模态下对比同种模态数据 的相似性, 并降序排序输出, 无法满足人们多种多样跨模态检索的需求, 跨模态可以使人们 从多个角度高效获取并了解同一件事物的信息, 因此逐渐成为热门的研究方向。 本文的主 要研究实现的是图像和文本之间的跨模态检索。 [0003]图像和文本有着不同的底层特征, 图像 的底层特征是颜色、 纹理、 形状等, 而文字 的底层特征是单词、 短语和句 子等。 不难看出, 图像和文本具有不同的表示和分布, 图文两 个模态的数据特 征存在较大的异构鸿沟, 无法直接比较两种模态间的相似性。 [0004]大多数方法学习联合跨模态嵌入空间(joint  cross‑modal embedding  space)为 语义相关 的image‑text对生成更相近的表示。 自深度学习时代以来, 跨模态检索的视觉表 示一直在改进, 从gr id‑based CNN改进为预训练的对象检测器。 与此同时, 人们开发了更精 细的image ‑text对齐方法, 例如注意机制、 迭代匹配以及基于图形的图像特征和文本嵌入 之间的关系推理。 [0005]这些模型使用标准体系结构来处理图像和文本, 例如用于图像处理的基于CNN的 模型和用于语言 的递归网络。 通常通过在分类头之前采用网络激活来从诸如ResNet或VGG 的标准图像分类网络中提取图像嵌入。 从训练分类任务的CNN网络中提取的描述只能捕获 图像的全局总 结特征, 而忽略了重要的局部细节。 为此, 最近的工作广泛使用了注意机制, 其能够将从特征地图或对 象检测器的空间位置提取的每个视觉对 象与句子中最感兴趣的 部分相关联, 反 之亦然。 [0006]然而, 它们对于大规模图像或句子检索仍然非常低 效: 这些方法的问题是不可能 分别提取视觉和文本描述, 因为通过交叉注意, 特征被串连在一起。 因此, 如果希望检索与 给定查询文本相关的图像, 则必须使用函数计算所有相似度, 然后按降序对结果分数进行 排序。 因此很难在几毫秒内从大 型数据库中检索图像或句子 。 [0007]故本发明提出了一种基于Transformer的细粒度跨模态图文检索的模型, 通过视 觉和文本管道分别转发, 只有在架构的最后阶段进行损失计算时才进行融合, 从而使可扩 展的跨模式信息检索成为可能。 同时, 这种新 颖的架构采用了基于Transformer编码器架构 的最先进的自注意力模块, 能够找出两种模式中的隐藏关系, 从而实现非常有效的细粒度 对齐。说 明 书 1/4 页 3 CN 115544294 A 3

PDF文档 专利 一种基于Transformer的细粒度跨模态图文检索的模型

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Transformer的细粒度跨模态图文检索的模型 第 1 页 专利 一种基于Transformer的细粒度跨模态图文检索的模型 第 2 页 专利 一种基于Transformer的细粒度跨模态图文检索的模型 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:33上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。