文库搜索
切换导航
首页
频道
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
首页
联系我们
国家标准目录
国际ISO标准目录
行业标准目录
地方标准目录
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211266439.X (22)申请日 2022.10.17 (71)申请人 上海师范大学 地址 201418 上海市奉贤区海 湾旅游区海 思路100号上海师 范大学 (72)发明人 朱媛媛 王佳婧 (74)专利代理 机构 北京索邦智慧专利代理有限 公司 11879 专利代理师 李思奇 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/55(2019.01) G06F 40/194(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于Tran sformer的细粒度跨模态图文 检索的模型 (57)摘要 本发明公开了一种基于Tran sformer的细粒 度跨模态图文检索的模型, 包括具体步骤如下, 使用FasterRCNN提取图像特征, 使用BERT 提取文 本特征, 使用一堆TransformerEncoder层构建 的, 既用于视觉数据管道, 也用于文本数据管道, TransformerEncoder以实体的序列或集合作为 输入, 它可以对这些实体进行推理, 而不考虑它 们的内在性质。 本发明通过为了在将视觉和文本 数据通道很好地分开, 在图像和句子的底层成 分, 即图像区域和单词之间进行细粒度匹配, 仅 在最终比对阶段合并来自两个域的信息, 保证了 这两个通道的信息丰富性, 有能够分别推理图像 和文本中元素之间的细粒度关系的图文检索模 型, 可以进一步降低网络复杂度, 这对整个体系 结构的稳定性和泛化能力同样具有重要的意 义。 权利要求书1页 说明书4页 附图1页 CN 115544294 A 2022.12.30 CN 115544294 A 1.一种基于Transformer的细 粒度跨模态图文检索的模型, 其特征在于, 所述具体步骤 如下: 使用Faster RCNN提取图像特征, 使用BERT提取文本特征, 使用一堆Transformer Encoder层构建的, 既用于视觉数据管道, 也用于文本 数据管道, Transformer Encoder以实 体的序列或集合作为输入, 它可以对这些实体进 行推理, 而不考虑它们的内在性质, 将图像 中的显著区域视为视觉实体, 将出现的单词视为文本实体, 通过汇集区域词的相似度矩阵 得到最终的图文的相似度得分。 2.根据权利要求1所述的一种基于Transformer的细 粒度跨模态图文检索的模型, 其特 征在于, 所述文本处理是使用BERT来提取词嵌入, BERT已经使用多层转换器编码器来处理 句子中的单词, 并通过同样强大的自我注意机制来捕获它们的功能关系, BERT嵌入在一些 一般的自然语言处理任务上进行了训练, 如句 子预测或句 子分类, 并在许多下游自然语言 任务中展示了最先进的结果, 与word2v ec不同, BERT嵌入捕获了每个单词出现的上下文, 因 此, 每个嵌入的单词都带有关于周围上 下文的信息, 这些信息可能会因文本而异。权 利 要 求 书 1/1 页 2 CN 115544294 A 2一种基于 Transformer的细粒度跨模 态图文检索的模型 技术领域 [0001]本发明涉及跨模态图文检索领域, 特别涉及一种基于Transformer的细粒度跨模 态图文检索的模型。 背景技术 [0002]互联网上存在着大量不同模态的数据, 比如图像、 文本、 语音和视频等。 当这些不 同的模态描绘的是同一件事物时, 人们称之为跨模态数据。 随着互联网的普及发展, 人类开 始进入大数据时代, 伴 随着大规模不同模态的数据的产生与发展, 各种 各样的模态形式已 经成为人类理解世界的主要形式。 传统的单模态检索只能在一种模态下对比同种模态数据 的相似性, 并降序排序输出, 无法满足人们多种多样跨模态检索的需求, 跨模态可以使人们 从多个角度高效获取并了解同一件事物的信息, 因此逐渐成为热门的研究方向。 本文的主 要研究实现的是图像和文本之间的跨模态检索。 [0003]图像和文本有着不同的底层特征, 图像 的底层特征是颜色、 纹理、 形状等, 而文字 的底层特征是单词、 短语和句 子等。 不难看出, 图像和文本具有不同的表示和分布, 图文两 个模态的数据特 征存在较大的异构鸿沟, 无法直接比较两种模态间的相似性。 [0004]大多数方法学习联合跨模态嵌入空间(joint cross‑modal embedding space)为 语义相关 的image‑text对生成更相近的表示。 自深度学习时代以来, 跨模态检索的视觉表 示一直在改进, 从gr id‑based CNN改进为预训练的对象检测器。 与此同时, 人们开发了更精 细的image ‑text对齐方法, 例如注意机制、 迭代匹配以及基于图形的图像特征和文本嵌入 之间的关系推理。 [0005]这些模型使用标准体系结构来处理图像和文本, 例如用于图像处理的基于CNN的 模型和用于语言 的递归网络。 通常通过在分类头之前采用网络激活来从诸如ResNet或VGG 的标准图像分类网络中提取图像嵌入。 从训练分类任务的CNN网络中提取的描述只能捕获 图像的全局总 结特征, 而忽略了重要的局部细节。 为此, 最近的工作广泛使用了注意机制, 其能够将从特征地图或对 象检测器的空间位置提取的每个视觉对 象与句子中最感兴趣的 部分相关联, 反 之亦然。 [0006]然而, 它们对于大规模图像或句子检索仍然非常低 效: 这些方法的问题是不可能 分别提取视觉和文本描述, 因为通过交叉注意, 特征被串连在一起。 因此, 如果希望检索与 给定查询文本相关的图像, 则必须使用函数计算所有相似度, 然后按降序对结果分数进行 排序。 因此很难在几毫秒内从大 型数据库中检索图像或句子 。 [0007]故本发明提出了一种基于Transformer的细粒度跨模态图文检索的模型, 通过视 觉和文本管道分别转发, 只有在架构的最后阶段进行损失计算时才进行融合, 从而使可扩 展的跨模式信息检索成为可能。 同时, 这种新 颖的架构采用了基于Transformer编码器架构 的最先进的自注意力模块, 能够找出两种模式中的隐藏关系, 从而实现非常有效的细粒度 对齐。说 明 书 1/4 页 3 CN 115544294 A 3
专利 一种基于Transformer的细粒度跨模态图文检索的模型
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:24:33
上传分享
举报
下载
原文档
(363.0 KB)
分享
友情链接
GB-T 22264.3-2022 安装式数字显示电测量仪表 第3部分:功率表和无功功率表的特殊要求.pdf
绿盟 新型IoT机顶盒恶意软件Rowdy网络分析报告.pdf
NY-T 4375-2023 一体化土壤水分自动监测仪技术要求.pdf
GB-T 34120-2017 电化学储能系统储能变流器技术规范.pdf
T-ZSPH 04—2021 智慧建筑节能低碳运行评价标准.pdf
GB-T 37526-2019 太阳能资源评估方法.pdf
DL-T 2340-2021 大坝安全监测资料分析规程.pdf
GB-T 903-2019 无色光学玻璃.pdf
GB-T 17744-2020 石油天然气工业 钻井和修井设备.pdf
GB-T 25341.1-2019 铁路旅客运输服务质量 第1部分:总则.pdf
DB42-T 1865.6-2022 政府网站集约化建设规范 第6部分:运维管理 湖北省.pdf
T-GZBD 9—2022 大数据安全管理规范.pdf
GB-T 43483-2023 重型机械 焊接件设计规范.pdf
GB-T 16264.8-2005 信息技术 开放系统互连 目录 第8部分 公钥和属性证书框架.pdf
DB37-T 3160-2018 渔港安全管理规范 山东省.pdf
GB-T 406-2018 棉本色布.pdf
HB 8675-2022 系留气球升空试验通用要求.pdf
GB-T 29544-2013 离网型风光互补发电系统 安全要求.pdf
GB-T 38329.3-2023 港口船岸连接 第3部分:低压岸电连接(LVSC)系统 一般要求.pdf
NB-T 10908—2021 风电机组混凝土—钢混合塔筒施工规范.pdf
1
/
7
评价文档
赞助2元 点击下载(363.0 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。