(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210946187.9
(22)申请日 2022.08.09
(65)同一申请的已公布的文献号
申请公布号 CN 115017358 A
(43)申请公布日 2022.09.06
(73)专利权人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
200号南京理工大 学
(72)发明人 项欣光 南海晶 金露
(74)专利代理 机构 北京高沃 律师事务所 1 1569
专利代理师 王爱涛
(51)Int.Cl.
G06F 16/583(2019.01)
G06V 10/44(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
(56)对比文件
CN 114201621 A,202 2.03.18
CN 114461821 A,202 2.05.10
US 2020/0104318 A1,2020.04.02
邓一姣 等.面向跨模态检索的协同注意力
网络模型. 《计算机科 学》 .2019,第47 卷(第4期),
第54-59页.
吴吉祥 等.基 于多模态注意力机制的跨模
态哈希网络. 《计算机 工程与应用》 .2021,全 文.
审查员 许凌波
(54)发明名称
一种多模态交互的跨模态检索方法及系统
(57)摘要
本发明涉及一种多模态交互的跨模态检索
方法及系统。 该方法包括提取图文对中的图像特
征和文本 特征; 将图像特征和文本特征分别映射
到一个公共空间, 确定图像的全局语义表示和文
本的全局语义表示的相似度分数; 根据相似度分
数和图文对的真实标签, 利用对比学习的方法,
优化图像特征和文本特征; 对优化后的图像特征
和优化后的文本特征进行多模态上下文语义信
息的学习, 确定优化后的图像特征和优化后的文
本特征的多模态融合表示; 利用多模态注意力模
块对多模态融合表示、 优化后的图像特征和优化
后的文本 特征进行多模态注意力交互, 确定联合
表示; 根据联合表示确定对应的匹配分数, 根据
匹配分数确定检索结果。 本发明能够提高跨模态
检索的精度。
权利要求书3页 说明书9页 附图2页
CN 115017358 B
2022.11.04
CN 115017358 B
1.一种多模态交 互的跨模态检索方法, 其特 征在于, 包括:
提取图文对中的图像特征和文本特征; 所述图文对包括: 图像和文本; 所述文本特征包
括: CLS标记和单词向量;
将所述图像特征和所述文本特征分别映射到一个公共空间, 确定图像的全局语义表示
和文本的全局语义表示的相似度分数;
根据相似度分数和图文对的真实标签, 利用对比学习的方法, 优化图像特征和文本特
征;
对优化后的图像特征和优化后的文本特征进行多模态上下文语义信 息的学习, 确定优
化后的图像特 征和优化后的文本特 征的多模态融合表示;
利用多模态注意力模块对多模态融合表示、 优化后的图像特征和优化后的文本特征进
行多模态 注意力交 互, 确定联合表示;
根据联合表示确定对应的匹配分数, 根据匹配分数确定检索结果;
所述根据相似度分数和图文对的真实标签, 利用对比学习的方法, 优化图像特征和文
本特征, 具体包括:
根据图文对确定图搜文的损失函数和文搜图的损失函数;
根据图搜文的损失函数和文搜图的损失函数确定对比损失函数;
根据相似度分数和图文对的真实标签优化对比损失函数;
根据优化后的对比损失函数确定优化后的图像特 征和优化后的文本特 征;
所述利用多模态注意力模块对多模态融合表示、 优化后的图像特征和优化后的文本特
征进行多模态 注意力交 互, 确定联合表示, 具体包括:
利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交
互, 确定优化后的多模态融合表示;
利用多模态注意力模块对优化后的多模态融合表示和优化后的文本特征进行多模态
注意力交 互, 确定联合表示。
2.根据权利要求1所述的一种 多模态交互的跨模态检索方法, 其特征在于, 所述提取图
文对中的图像特 征和文本特 征, 之前还 包括:
获取图文对;
对图文对进行 预处理; 所述预处 理包括: 随机掩码以及添加噪声。
3.根据权利要求1所述的一种 多模态交互的跨模态检索方法, 其特征在于, 所述提取图
文对中的图像特 征和文本特 征, 具体包括:
利用目标提取网络和卷积神经网络提取图像的局部区域特 征;
将图像的局部区域特 征进行联合, 确定图像特 征;
利用双向编码表示模型来 提取文本的文本特 征。
4.根据权利要求1所述的一种 多模态交互的跨模态检索方法, 其特征在于, 所述将所述
图像特征和所述文本特征分别映射到一个公共空间, 确定图像的全局语义表示和文本的全
局语义表示的相似度分数, 具体包括:
将所述图像特 征和所述文本特 征分别映射到一个公共空间;
根据所述文本特 征确定文本的单词比例;
根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示;权 利 要 求 书 1/3 页
2
CN 115017358 B
2根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示;
根据所述图像特 征确定图像的区域聚合表示;
根据图像的区域聚合表示确定图像的全局语义表示;
根据图像特征和文本特征, 利用向量的余弦相似度确定图像的全局语义表示和文本的
全局语义表示的相似度分数。
5.一种多模态交 互的跨模态检索系统, 其特 征在于, 包括:
特征提取模块, 用于提取图文对中的图像特征和文本特征; 所述图文对包括: 图像和文
本; 所述文本特 征包括: CLS标记和单词向量;
相似度分数确定模块, 用于将所述图像特征和所述文本特征分别映射到一个公共空
间, 确定图像的全局语义表示和文本的全局语义表示的相似度分数;
对比学习模块, 用于根据相似度分数和图文对的真实标签, 利用对比学习的方法, 优化
图像特征和文本特 征;
多模态融合表示确定模块, 用于对优化后的图像特征和优化后的文本特征进行多模态
上下文语义信息的学习, 确定优化后的图像特 征和优化后的文本特 征的多模态融合表示;
联合表示确定模块, 用于利用多模态注意力模块对多模态融合表示、 优化后的图像特
征和优化后的文本特 征进行多模态 注意力交 互, 确定联合表示;
检索结果确定模块, 用于根据联合表示确定对应的匹配分数, 根据匹配分数确定检索
结果。
6.根据权利要求5所述的一种 多模态交互的跨模态检索系统, 其特征在于, 所述特征提
取模块, 具体包括:
图像的局部区域特征提取单元, 用于利用目标提取网络和卷积神经网络提取图像的局
部区域特 征;
图像特征确定单 元, 用于将图像的局部区域特 征进行联合, 确定图像特 征;
文本特征提取单元, 用于利用双向编码表示模型来 提取文本的文本特 征。
7.根据权利要求5所述的一种 多模态交互的跨模态检索系统, 其特征在于, 所述相似度
分数确定模块, 具体包括:
映射单元, 用于将所述图像特 征和所述文本特 征分别映射到一个公共空间;
单词比例确定单 元, 用于根据所述文本特 征确定文本的单词比例;
文本的区域聚合表示确定单元, 用于根据 所述文本的单词比例以及对应的单词向量确
定文本的区域聚合表示;
文本的全局语义表示确定单元, 用于根据文本的区域聚合表示以及CLS标记确定文本
的全局语义表示;
图像的区域聚合表示确定单 元, 用于根据所述图像特 征确定图像的区域聚合表示;
图像的全局语义表示确定单元, 用于根据图像的区域聚合表示确定图像的全局语义表
示;
相似度分数确定单元, 用于根据图像特征和文本特征, 利用向量的余弦相似度确定 图
像的全局语义表示和文本的全局语义表示的相似度分数。
8.根据权利要求5所述的一种 多模态交互的跨模态检索系统, 其特征在于, 所述对比学
习模块, 具体包括:权 利 要 求 书 2/3 页
3
CN 115017358 B
3
专利 一种多模态交互的跨模态检索方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:38:43上传分享