专利 一种多模态交互的跨模态检索方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210946187.9 (22)申请日 2022.08.09 (65)同一申请的已公布的文献号申请公布号 CN 115017358 A (43)申请公布日 2022.09.06 (73)专利权人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号南京理工大学 (72)发明人项欣光　南海晶　金露　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师王爱涛 (51)Int.Cl. G06F 16/583(2019.01) G06V 10/44(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (56)对比文件 CN 114201621 A,202 2.03.18 CN 114461821 A,202 2.05.10 US 2020/0104318 A1,2020.04.02 邓一姣等.面向跨模态检索的协同注意力网络模型. 《计算机科学》 .2019,第47 卷(第4期), 第54-59页. 吴吉祥等.基于多模态注意力机制的跨模态哈希网络. 《计算机工程与应用》 .2021,全文. 审查员许凌波 (54)发明名称一种多模态交互的跨模态检索方法及系统 (57)摘要本发明涉及一种多模态交互的跨模态检索方法及系统。该方法包括提取图文对中的图像特征和文本特征；将图像特征和文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。本发明能够提高跨模态检索的精度。权利要求书3页说明书9页附图2页 CN 115017358 B 2022.11.04 CN 115017358 B 1.一种多模态交互的跨模态检索方法，其特征在于，包括：提取图文对中的图像特征和文本特征；所述图文对包括：图像和文本；所述文本特征包括： CLS标记和单词向量；将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果；所述根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征，具体包括：根据图文对确定图搜文的损失函数和文搜图的损失函数；根据图搜文的损失函数和文搜图的损失函数确定对比损失函数；根据相似度分数和图文对的真实标签优化对比损失函数；根据优化后的对比损失函数确定优化后的图像特征和优化后的文本特征；所述利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示，具体包括：利用多模态注意力模块对多模态融合表示和优化后的图像特征进行多模态注意力交互，确定优化后的多模态融合表示；利用多模态注意力模块对优化后的多模态融合表示和优化后的文本特征进行多模态注意力交互，确定联合表示。 2.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述提取图文对中的图像特征和文本特征，之前还包括：获取图文对；对图文对进行预处理；所述预处理包括：随机掩码以及添加噪声。 3.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述提取图文对中的图像特征和文本特征，具体包括：利用目标提取网络和卷积神经网络提取图像的局部区域特征；将图像的局部区域特征进行联合，确定图像特征；利用双向编码表示模型来提取文本的文本特征。 4.根据权利要求1所述的一种多模态交互的跨模态检索方法，其特征在于，所述将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数，具体包括：将所述图像特征和所述文本特征分别映射到一个公共空间；根据所述文本特征确定文本的单词比例；根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示；权　利　要　求　书 1/3 页 2 CN 115017358 B 2根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示；根据所述图像特征确定图像的区域聚合表示；根据图像的区域聚合表示确定图像的全局语义表示；根据图像特征和文本特征，利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。 5.一种多模态交互的跨模态检索系统，其特征在于，包括：特征提取模块，用于提取图文对中的图像特征和文本特征；所述图文对包括：图像和文本；所述文本特征包括： CLS标记和单词向量；相似度分数确定模块，用于将所述图像特征和所述文本特征分别映射到一个公共空间，确定图像的全局语义表示和文本的全局语义表示的相似度分数；对比学习模块，用于根据相似度分数和图文对的真实标签，利用对比学习的方法，优化图像特征和文本特征；多模态融合表示确定模块，用于对优化后的图像特征和优化后的文本特征进行多模态上下文语义信息的学习，确定优化后的图像特征和优化后的文本特征的多模态融合表示；联合表示确定模块，用于利用多模态注意力模块对多模态融合表示、优化后的图像特征和优化后的文本特征进行多模态注意力交互，确定联合表示；检索结果确定模块，用于根据联合表示确定对应的匹配分数，根据匹配分数确定检索结果。 6.根据权利要求5所述的一种多模态交互的跨模态检索系统，其特征在于，所述特征提取模块，具体包括：图像的局部区域特征提取单元，用于利用目标提取网络和卷积神经网络提取图像的局部区域特征；图像特征确定单元，用于将图像的局部区域特征进行联合，确定图像特征；文本特征提取单元，用于利用双向编码表示模型来提取文本的文本特征。 7.根据权利要求5所述的一种多模态交互的跨模态检索系统，其特征在于，所述相似度分数确定模块，具体包括：映射单元，用于将所述图像特征和所述文本特征分别映射到一个公共空间；单词比例确定单元，用于根据所述文本特征确定文本的单词比例；文本的区域聚合表示确定单元，用于根据所述文本的单词比例以及对应的单词向量确定文本的区域聚合表示；文本的全局语义表示确定单元，用于根据文本的区域聚合表示以及CLS标记确定文本的全局语义表示；图像的区域聚合表示确定单元，用于根据所述图像特征确定图像的区域聚合表示；图像的全局语义表示确定单元，用于根据图像的区域聚合表示确定图像的全局语义表示；相似度分数确定单元，用于根据图像特征和文本特征，利用向量的余弦相似度确定图像的全局语义表示和文本的全局语义表示的相似度分数。 8.根据权利要求5所述的一种多模态交互的跨模态检索系统，其特征在于，所述对比学习模块，具体包括：权　利　要　求　书 2/3 页 3 CN 115017358 B 3

专利 一种多模态交互的跨模态检索方法及系统

专利一种多模态交互的跨模态检索方法及系统