(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210951558.2
(22)申请日 2022.08.09
(71)申请人 安徽大学
地址 230039 安徽省合肥市蜀山区肥西路3
号
(72)发明人 李成龙 李尚泽 鹿安东 黄岩
王亮 程致远
(74)专利代理 机构 合肥市浩智运专利代理事务
所(普通合伙) 34124
专利代理师 朱文振
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
联合令牌和特征对齐的自然语言行人检索
方法及系统
(57)摘要
本发明提供联合令牌和特征对齐的自然语
言行人检索方法及系统包括: 使用双流特征学习
网络中的图像分支提取输入行人图像的视觉特
征; 使用双流特征学习网络中的文本分支提取输
入行人描述的文本特征; 对图像和文本分支提取
到的全局特征图在特征空间内进行对齐; 使用特
征空间中对齐的图像全局特征生成令牌序列; 在
生成令牌序列和真实令牌序列之间进行令牌对
齐; 对图像和文本特征进行跨模态融合交互; 联
合令牌和特征对齐的自然语言行人检索模型训
练; 联合令牌和特征对齐的自然语 言行人检索模
型测试。 本发明解决了歧义性 嵌入、 复杂 度高、 依
赖预置数据以及模态距离、 类内距离优化效果差
的技术问题。
权利要求书5页 说明书12页 附图4页
CN 115311687 A
2022.11.08
CN 115311687 A
1.联合令牌和特 征对齐的自然语言行 人检索方法, 其特 征在于, 所述方法包括:
S1、 处理预置双流特征学习网络中的图像分支, 据以利用金字塔视觉Transformer作为
主干网络, 据以提取输入行 人图像特 征;
S2、 处理所述双流特征学习网络中的文本分支, 据以利用预置卷积神经网络提取文本
高层全局特 征;
S3、 在预置特征空间内, 对从所述图像分支及所述文本分支中提取的所述全局特征图
进行对齐, 以得到对齐的图像全局特征, 利用跨模态投影匹配损失函数CMPM学习判别性视
觉文本特 征, 据以关联图像和文本 两种模态, 并减小图像与文本模态 距离;
S4、 根据所述对齐 图像全局特征生成所述令牌序列, 将图像模态与文本模态的特征转
换到相同的空间中进行度量, 以桥接图像与文本模态, 利用串形优化新范式缩小所述图像
与文本模态距离, 据以获取模态不变性特征, 以文本生成模块利用输入图像的深层语义特
征生成所述文本描述, 据以映射所述图像特征及所述文本特征至相同空间, 以在所述特征
空间的基础上增 加令牌空间监 督, 据以减小类内距离, 并拉近所述图像与文本模态 距离;
S5、 利用联合令牌和特征对齐的框架TFAF, 以交叉熵损失作为重建损失函数, 据以约束
生成令牌序列 与真实令牌序列之间的距离, 以实现令牌空间对齐;
S6、 跨模态融合交互所述图像特征与文本特征, 以跨模态交互模块卷积将所述图像高
层全局特征与所述生成文本特征映射到各自的所述特征空间, 下采样并强化处理所述图像
高层全局特征与生成文本特征, 处理获取所述图像高层 全局特征与所述生成文本特征之间
的权重矩阵, 归一化并加权处理所述权重矩阵, 以获得适用注意力矩阵, 利用残差连接处理
所述适用注意力矩阵, 以得到适用融合输出, 将跨模态投影匹配损失函数作为交互损失函
数, 对所述适用融合输出和所述步骤S2中所述文本 分支提取的所述文本高层全局特征进 行
监督, 据以拉近图像与文本模态之间的距离, 减少模态差异;
S7、 按照前述步骤S1至S6提取所述图像特征和所述文本特征, 利用Adam神经网络优化
器训练所述自然语言行 人检索模型;
S8、 测试所述自然语言行 人检索模型, 据以获取 行人检索结果。
2.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法, 其特征在于,
所述步骤S1包括:
S11、 所述金字塔视觉Transformer包括四个阶段, 每个所述阶段包括一个patch嵌入及
一个Transformer编码器, 在训练阶段, 设一批训练数据为:
其中, N代 表相互匹配并属于同一身份的图像 ‑文本对的数量;
S12、 给定一行人图像I, 以下述逻辑表示所述金字塔视觉Transformer的第四阶段生成
的高层全局特 征图:
其中, H、 W和C分别表示特 征图的高度、 宽度和通道数。
3.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法, 其特征在于,
所述步骤S2包括:
S21、 在所述文本分支中, 利用BERT模型将文本描述 转换为令牌序列并提取词向量;权 利 要 求 书 1/5 页
2
CN 115311687 A
2S22、 设置一固定值 L以控制句子长度;
S23、 在将所述文本描述转化为令牌序列的过程中, 对序列长度小于预置长度阈值L的
待转化序列进行补零操作;
S24、 对序列长度超过所述预置长度阈值L的待转化序列, 取前L个令牌, 据以得到固定
长度令牌序列, 输入所述固定 长度令牌序列至所述BERT模型中, 以得到词向量:
其中, D是每 个词向量的维度;
S25、 将所述词向量的维度从
扩展至
供提取行人描述的全局特征
图;
S26、 利用一卷积层和批范数操作转换所述词向量的维度D, 使得所述词向量的维度D的
数值转为图像高层全局特 征图的通道数C;
S27、 利用深度卷积神经网络提取每个句子描述的高层全局特征 图
其中,
所述深度卷积神经网络包括文本残差瓶颈结构。
4.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法, 其特征在于,
所述步骤S3包括:
S31、 给定一个批次的图像特 征及文本特 征, 以将图像 ‑文本对表示 为:
S32、 全局最大池化处理所述图像特征及所述文本特征, 以得到最大池化数据
据以过滤得到重要全局上下文信息, 利用所述图像特征fiI和所述文本特
征
之间的标量投影值, 以表征图像与文本特 征向量相似度;
S33、 获取所述标量投影值在一个批次中的所有特征对
中所占的比例, 据以
利用下述逻辑处 理得到所述图像特 征fiI与所述文本特 征
的同一身份概 率:
其中,
表示标准 化的文本特 征;
S34、 利用下述逻辑, 以目标函数将批处理中的每个所述图像特征
与其正确匹配的所
述文本特 征相关联, 并优化所述目标函数:
式中, ∈用于数值问题处理参数, qi,j是所述图像 特征fiI和所述文本特征
之间标准化
后的正确匹配概 率;
S35、 在一个批次中存在不少于2个所述文本特征与所述图像特征fii相匹配时, 在一个
批次中, 以下述逻辑定义图像到文本投影损失函数:
权 利 要 求 书 2/5 页
3
CN 115311687 A
3
专利 联合令牌和特征对齐的自然语言行人检索方法及系统
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:50上传分享