(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210951558.2 (22)申请日 2022.08.09 (71)申请人 安徽大学 地址 230039 安徽省合肥市蜀山区肥西路3 号 (72)发明人 李成龙 李尚泽 鹿安东 黄岩  王亮 程致远  (74)专利代理 机构 合肥市浩智运专利代理事务 所(普通合伙) 34124 专利代理师 朱文振 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 联合令牌和特征对齐的自然语言行人检索 方法及系统 (57)摘要 本发明提供联合令牌和特征对齐的自然语 言行人检索方法及系统包括: 使用双流特征学习 网络中的图像分支提取输入行人图像的视觉特 征; 使用双流特征学习网络中的文本分支提取输 入行人描述的文本特征; 对图像和文本分支提取 到的全局特征图在特征空间内进行对齐; 使用特 征空间中对齐的图像全局特征生成令牌序列; 在 生成令牌序列和真实令牌序列之间进行令牌对 齐; 对图像和文本特征进行跨模态融合交互; 联 合令牌和特征对齐的自然语言行人检索模型训 练; 联合令牌和特征对齐的自然语 言行人检索模 型测试。 本发明解决了歧义性 嵌入、 复杂 度高、 依 赖预置数据以及模态距离、 类内距离优化效果差 的技术问题。 权利要求书5页 说明书12页 附图4页 CN 115311687 A 2022.11.08 CN 115311687 A 1.联合令牌和特 征对齐的自然语言行 人检索方法, 其特 征在于, 所述方法包括: S1、 处理预置双流特征学习网络中的图像分支, 据以利用金字塔视觉Transformer作为 主干网络, 据以提取输入行 人图像特 征; S2、 处理所述双流特征学习网络中的文本分支, 据以利用预置卷积神经网络提取文本 高层全局特 征; S3、 在预置特征空间内, 对从所述图像分支及所述文本分支中提取的所述全局特征图 进行对齐, 以得到对齐的图像全局特征, 利用跨模态投影匹配损失函数CMPM学习判别性视 觉文本特 征, 据以关联图像和文本 两种模态, 并减小图像与文本模态 距离; S4、 根据所述对齐 图像全局特征生成所述令牌序列, 将图像模态与文本模态的特征转 换到相同的空间中进行度量, 以桥接图像与文本模态, 利用串形优化新范式缩小所述图像 与文本模态距离, 据以获取模态不变性特征, 以文本生成模块利用输入图像的深层语义特 征生成所述文本描述, 据以映射所述图像特征及所述文本特征至相同空间, 以在所述特征 空间的基础上增 加令牌空间监 督, 据以减小类内距离, 并拉近所述图像与文本模态 距离; S5、 利用联合令牌和特征对齐的框架TFAF, 以交叉熵损失作为重建损失函数, 据以约束 生成令牌序列 与真实令牌序列之间的距离, 以实现令牌空间对齐; S6、 跨模态融合交互所述图像特征与文本特征, 以跨模态交互模块卷积将所述图像高 层全局特征与所述生成文本特征映射到各自的所述特征空间, 下采样并强化处理所述图像 高层全局特征与生成文本特征, 处理获取所述图像高层 全局特征与所述生成文本特征之间 的权重矩阵, 归一化并加权处理所述权重矩阵, 以获得适用注意力矩阵, 利用残差连接处理 所述适用注意力矩阵, 以得到适用融合输出, 将跨模态投影匹配损失函数作为交互损失函 数, 对所述适用融合输出和所述步骤S2中所述文本 分支提取的所述文本高层全局特征进 行 监督, 据以拉近图像与文本模态之间的距离, 减少模态差异; S7、 按照前述步骤S1至S6提取所述图像特征和所述文本特征, 利用Adam神经网络优化 器训练所述自然语言行 人检索模型; S8、 测试所述自然语言行 人检索模型, 据以获取 行人检索结果。 2.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法, 其特征在于, 所述步骤S1包括: S11、 所述金字塔视觉Transformer包括四个阶段, 每个所述阶段包括一个patch嵌入及 一个Transformer编码器, 在训练阶段, 设一批训练数据为: 其中, N代 表相互匹配并属于同一身份的图像 ‑文本对的数量; S12、 给定一行人图像I, 以下述逻辑表示所述金字塔视觉Transformer的第四阶段生成 的高层全局特 征图: 其中, H、 W和C分别表示特 征图的高度、 宽度和通道数。 3.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法, 其特征在于, 所述步骤S2包括: S21、 在所述文本分支中, 利用BERT模型将文本描述 转换为令牌序列并提取词向量;权 利 要 求 书 1/5 页 2 CN 115311687 A 2S22、 设置一固定值 L以控制句子长度; S23、 在将所述文本描述转化为令牌序列的过程中, 对序列长度小于预置长度阈值L的 待转化序列进行补零操作; S24、 对序列长度超过所述预置长度阈值L的待转化序列, 取前L个令牌, 据以得到固定 长度令牌序列, 输入所述固定 长度令牌序列至所述BERT模型中, 以得到词向量: 其中, D是每 个词向量的维度; S25、 将所述词向量的维度从 扩展至 供提取行人描述的全局特征 图; S26、 利用一卷积层和批范数操作转换所述词向量的维度D, 使得所述词向量的维度D的 数值转为图像高层全局特 征图的通道数C; S27、 利用深度卷积神经网络提取每个句子描述的高层全局特征 图 其中, 所述深度卷积神经网络包括文本残差瓶颈结构。 4.根据权利要求1所述的联合令牌和特征对齐的自然语言行人检索方法, 其特征在于, 所述步骤S3包括: S31、 给定一个批次的图像特 征及文本特 征, 以将图像 ‑文本对表示 为: S32、 全局最大池化处理所述图像特征及所述文本特征, 以得到最大池化数据 据以过滤得到重要全局上下文信息, 利用所述图像特征fiI和所述文本特 征 之间的标量投影值, 以表征图像与文本特 征向量相似度; S33、 获取所述标量投影值在一个批次中的所有特征对 中所占的比例, 据以 利用下述逻辑处 理得到所述图像特 征fiI与所述文本特 征 的同一身份概 率: 其中, 表示标准 化的文本特 征; S34、 利用下述逻辑, 以目标函数将批处理中的每个所述图像特征 与其正确匹配的所 述文本特 征相关联, 并优化所述目标函数: 式中, ∈用于数值问题处理参数, qi,j是所述图像 特征fiI和所述文本特征 之间标准化 后的正确匹配概 率; S35、 在一个批次中存在不少于2个所述文本特征与所述图像特征fii相匹配时, 在一个 批次中, 以下述逻辑定义图像到文本投影损失函数: 权 利 要 求 书 2/5 页 3 CN 115311687 A 3

PDF文档 专利 联合令牌和特征对齐的自然语言行人检索方法及系统

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 联合令牌和特征对齐的自然语言行人检索方法及系统 第 1 页 专利 联合令牌和特征对齐的自然语言行人检索方法及系统 第 2 页 专利 联合令牌和特征对齐的自然语言行人检索方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:28:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。