(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210493534.7
(22)申请日 2022.05.07
(71)申请人 苏州大学
地址 215000 江苏省苏州市吴中区石湖西
路188号
(72)发明人 王丹 张韫竹 张翔 李石平
曹敏
(74)专利代理 机构 苏州市中南伟业知识产权代
理事务所(普通 合伙) 32257
专利代理师 李柏柏
(51)Int.Cl.
G06F 16/583(2019.01)
G06V 10/42(2022.01)
G06V 10/44(2022.01)
G06V 10/74(2022.01)G06V 10/82(2022.01)
G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06V 40/20(2022.01)
(54)发明名称
基于文本的行人搜索任务语义对齐方法及
系统
(57)摘要
本发明涉及一种基于文本的行人搜索任务
语义对齐方法及系统, 包括将图像和文本的特征
输入至特征聚合网络, 输出语义对齐后的感知特
征, 图像和文本的局部特征通过受跨模态局部对
齐损失和三元组损失约束的多头注意力模型实
现对齐; 基于感知特征计算图像和文本的原始相
似度; 在推理过程中, 给定文本查询, 根据原始相
似度对图像进行排序, 获得初始排序列表, 对于
初始排序列表中的每个图像相似性得到图像的
最近邻, 并得到文本查询的最近邻, 根据两个最
近邻计算文本查询与每个图像之间的成对相似
度, 对图像进行重排序。 本发明不需要额外的模
型干预和跨模态注意机制, 自动获得跨模式语义
对齐的感知特征, 且通过文本查询重排序的方式
提高语义对齐的性能。
权利要求书2页 说明书8页 附图1页
CN 114860978 A
2022.08.05
CN 114860978 A
1.一种基于文本的行 人搜索任务语义对齐方法, 其特 征在于, 包括以下步骤:
给定图像和文本, 对图像和文本进行特征提取, 分别得到图像特征和文本特征, 其中图
像和文本的特 征包括局部特 征和全局特 征;
构建特征聚合网络, 特征聚合网络包括多头注意力模型, 将图像特征和文本特征输入
至特征聚合网络, 输出语义对齐的图像感知特征和文本感知特征, 其中图像局部特征和文
本局部特征通过受跨模态局部对齐损失和 三元组损失约束的多头注意力模型实现局部特
征对齐;
基于图像感知特 征和文本感知特 征计算图像和文本的原 始相似度;
在推理过程中, 给定一个文本查询, 根据原始相似度对图像进行排序, 获得初始排序列
表, 对于初始排序列表中的每个图像根据其视觉表示的相似性得到图像的最近邻, 且根据
文本与图像的原始相似度得到文本查询的最近邻, 根据两个最近邻计算文本查询与每个图
像之间的成对相似度, 并根据原 始相似度和成对相似度对图像进行重新 排序。
2.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法, 其特征在于, 对所述
图像进行 特征提取得到图像特 征的方法包括:
给定多个图像, 将每个图像分割为设定大小的切片序列, 通过可训练的线性投影将切
片序列映射到d维嵌入, 在切片嵌入序列中增加可学习的嵌入标记并将其输入至图像特征
编码器, 输出每 个图像特 征, 其中图像特 征包括图像全局特 征和图像局部特 征。
3.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法, 其特征在于, 对所述
文本进行 特征提取得到文本特 征的方法包括:
给定多个文本描述, 将每个文本描述输入至文本特征编码器, 输出每个文本特征, 其中
文本特征包括文本全局特 征和文本局部特 征。
4.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法, 其特征在于, 所述图
像局部特 征和文本局部特 征通过多头注意力模型进行局部特 征对齐的方法包括:
将多个图像特征和多个文本特征分别输入至结构相同的两个所述多头注意力模型中,
在多头注意力模型中分别得到图像块嵌入集和文本嵌入集, 然后 将多个图像的图像块嵌入
集中对应的嵌入特征 组合得到多个图像块嵌入矩阵, 同时将多个文本的文本嵌入集中对应
的嵌入特 征组合得到多个文本嵌入矩阵;
使用受跨模态局部对齐损失和三元组损失训练多头注意力模型, 得到训练后的多头注
意力模型, 利用训练后的多头注意力模型输出语义对齐的图像感知特 征和文本感知特 征。
5.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法, 其特征在于, 所述特
征聚合网络受跨模态全局对齐损失、 跨模态局部对齐损失和三元组损失约束对图像全局特
征和文本全局特 征进行语义对齐。
6.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法, 其特征在于, 计算图
像和文本的原 始相似度的方法包括:
计算图像 ‑文本对之间的原 始相似度的计算公式如下:
其中, I和T代表 输入的图像和文本, k为多头注意力模型中的头注意力模 块的个数, eg和权 利 要 求 书 1/2 页
2
CN 114860978 A
2tg分别表示输入图片和输入文本的全局特征向量,
分别表示图片和文本的局部感知特
征。
7.根据权利要求1所述的基于文本的行人搜索任务语义对齐方法, 其特征在于, 根据两
个最近邻计算所述文本查询与每 个图像之间的成对相似度的方法包括:
计算所述文本查询与每 个图像之间的成对相似度的公式如下:
其中, Ni2i(I,l)表示图像的最近邻, Nt2i(T,l)表示文本查询的最近邻。
8.一种基于文本的行 人搜索任务语义对齐系统, 其特 征在于, 包括:
特征提取模块, 给定图像和文本, 所述特征提取模块用于对图像和文本进行特征提取,
分别得到图像特 征和文本特 征, 其中图像和文本的特 征包括局部特 征和全局特 征;
语义对齐模块, 所述语义对齐模块用于构建特征聚合网络, 特征聚合网络包括多头注
意力模型, 将图像特征和文本特征输入至特征聚合网络, 输出语义对齐的图像感知特征和
文本感知特征, 其中图像局部特征和文本局部特征通过 受跨模态局部对齐损失和三元组损
失约束多头注意力模型实现局部特 征对齐;
相似度计算模块, 所述相似度计算模块用于基于所述图像感知特征和文本感知特征计
算图像和的原 始相似度;
重排序模块, 所述重排序模块用于, 在推理过程中, 给定一个文本查询, 根据原始相似
度对图像进行排序, 获得初始排序列表, 对于初始排序列表中的每个图像根据其视觉表示
的相似性得到图像的最近邻, 且根据文本与图像的原始相似度得到文本查询的最近邻, 根
据两个最近邻计算文本查询与每个图像之 间的成对相似度, 并根据原始相似度和成对相似
度对图像进行重新 排序。
9.根据权利要求8所述的基于文本的行人搜索任务语义对齐系统, 其特征在于, 所述语
义对齐模块还用于将图像局部特征和文本局部特征通过多头注意力模型实现局部特征对
齐, 其包括:
将多个图像和多个文本分别 输入至结构相同的两个所述多头注意力模型中, 在多头注
意力模型中分别得到图像块嵌入集和文本嵌入集, 然后 将多个图像的图像块嵌入集中对应
的嵌入特征组合得到多个图像块嵌入矩阵, 同时将多个文本的文本嵌入集中对应的嵌入特
征组合得到多个文本嵌入矩阵;
使用受跨模态局部对齐损失和三元组损失训练多头注意力模型, 得到训练后的多头注
意力模型, 利用训练后的多头注意力模型输出语义对齐的图像感知特 征和文本感知特 征。
10.根据权利要求8所述的基于文本的行人搜索任务语义对齐系统, 其特征在于, 所述
重排序模块还用于计算所述文本查询与每 个图像之间的成对相似度, 其包括:
计算所述文本查询与每 个图像之间的成对相似度的公式如下:
其中, Ni2i(I,l)表示图像的最近邻, Nt2i(T,l)表示文本查询的最近邻。权 利 要 求 书 2/2 页
3
CN 114860978 A
3
专利 基于文本的行人搜索任务语义对齐方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:59:43上传分享