standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211014352.3 (22)申请日 2022.08.23 (71)申请人 浙江工商大 学 地址 310018 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 董建锋 彭小满 陈书界 朱继祥  王勋  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 刘静 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/77(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于CNN-Tran sformer双流网络的细粒 度服饰检索方法 (57)摘要 本发明公开了一种基于CNN ‑Transformer双 流网络的细粒度服饰检索方法, 该方法包括: 首 先将图像输入到CNN网络中提取特征; 将服饰属 性映射为特征向量, 然后引导注 意力模块提取与 属性相关的粗粒度图像特征, 其中生成的注意力 矩阵用于定位图像中与属性相关的局部区域; 将 图 像中的 局部区域以 及服饰属性输入到 Transformer网络中提取细粒度图像特征; 最后 将两分支的特征进行融合, 得到服饰图像的鲁棒 性表达并使用相似性计算进行服饰检索; 在原始 Transformer的基础上引入Dilated ‑ Transformer变体, 减少模型计算量, 加快训练和 推理速度。 本发明使用新颖的CNN ‑Transformer 双流结构, 利用两种网络结构的互补性对服饰图 像进行由粗到精的特征表示, 最终 融合粗粒度和 细粒度的特 征以实现较高性能的检索。 权利要求书3页 说明书10页 附图4页 CN 115410067 A 2022.11.29 CN 115410067 A 1.一种基于CNN ‑Transformer双流网络的细粒度 服饰检索方法, 其特征在于, 包括以下 步骤: (1)利用预训练的CN N网络对服饰图像进行 特征提取, 得到图像初始特 征; (2)对服饰属性进行 特征编码, 得到服饰属性的嵌入向量; (3)利用步骤(1)中的图像初始特征和步骤(2)中服饰属性的嵌入向量通过空间注意力 模块, 得到属性感知的空间注意特 征向量和自适应注意力权值矩阵; (4)利用步骤(3)中的空间注意特征向量和步骤(2)中的服饰属性的嵌入向量通过通道 注意力模块, 得到属性感知的通道 注意特征向量; (5)利用步骤(4)中的通道注意特征向量通过全连接层, 得到CNN分支与属性相关的粗 粒度图像特 征; (6)利用步骤(3)中的自适应注意力权值矩阵, 得到属性相关的图像局部区域; (7)利用Dilated ‑Transformer网络对步骤(6)得到的局部区域进行特征提取, 得到表 示局部区域的特 征序列; (8)利用步骤(2)中得到的服饰属性嵌入向量和步骤(7)得到的局部区域特征序列通过 Cross‑Transformer模块, 得到Transformer分支与属性相关的细粒度图像特 征; (9)分别利用步骤(5)中的粗粒度图像特征与步骤(8)中的细 粒度图像特征进行三元组 损失计算, 以端到端的方式训练模型, 使得模型能够自动学习不同尺度的图像特 征表示; (10)利用步骤(9)中训练得到的模型实现细粒度服饰 检索。 2.根据权利要求1所述的一种基于CNN ‑Transformer双流网络的细 粒度服饰检索 方法, 其特征在于, 所述 步骤(2)中对服饰属性进行 特征编码的方法包括如下步骤: (2‑1)利用独热编码对服饰属性进行编码, 得到服饰属性的初始特 征; (2‑2)利用一个词嵌入矩阵对步骤(2 ‑1)中得到的服饰属性初始特征进行词嵌入操作, 得到服饰属性的词嵌入编码向量。 3.根据权利要求1所述的一种基于CNN ‑Transformer双流网络的细 粒度服饰检索 方法, 其特征在于, 所述步骤(3)中利用步骤(1)中的图像初始特征和步骤(2)中服饰属性的嵌入 向量进行空间注意力的方法包括如下步骤: (3‑1)使用1×1卷积层和非线 性激活函数将步骤(1)中得到的 图像初始特征映射至c1维 的特征空间; (3‑2)使用可训练的线性投影和 非线性激活函数将步骤(2)中得到的服饰属性嵌入向 量投影至 c1维的特征空间; (3‑3)将步骤(3 ‑1)得到的c1维的图像初始特征和步骤(3 ‑2)中得到的c1维的服饰属性 嵌入向量进行哈达玛积运算, 然后进行逐通道相加操作, 最后经过Softmax函数, 得到归一 化的自适应注意力权值矩阵; (3‑4)利用自适应注意力权值矩阵, 对步骤(1)中得到的图像初始特征进行加权计算, 得到属性感知的空间注意特 征向量。 4.根据权利要求1所述的一种基于CNN ‑Transformer双流网络的细 粒度服饰检索 方法, 其特征在于, 所述步骤(4)中利用步骤(3)中的空间注意特征向量和步骤(2)中的服饰属性 的嵌入向量进行通道 注意力的方法包括如下步骤: (4‑1)使用可训练的线性投影和 非线性激活函数将步骤(2)中得到的服饰属性嵌入向权 利 要 求 书 1/3 页 2 CN 115410067 A 2量投影至 c2维的特征空间; (4‑2)将步骤(3)得到的空间注意特征 向量与步骤(4 ‑1)中得到的c2维的服饰属性嵌入 向量沿着通道的维度进行拼接, 然后经过两层全连接层, 得到属 性感知的通道注意力权值 向量; (4‑3)将步骤(3)得到的空间注意特征向量与步骤(4 ‑2)得到的通道注意力权值向量进 行哈达玛积运算, 得到属性感知的通道 注意特征向量。 5.根据权利要求1所述的一种基于CNN ‑Transformer双流网络的细 粒度服饰检索 方法, 其特征在于, 所述步骤(6)中利用步骤(3)中的自适应注意力权值矩阵, 得到与属性相关的 图像局部区域的方法包括如下步骤: (6‑1)将步骤(3)得到的自适应注意力权值矩阵进行上采样, 使其大小与原始图像大小 一致; (6‑2)使用一个阈值对步骤(6 ‑1)中上采样后的注意力权值矩阵进行二值化, 得到二值 图; (6‑3)提取步骤(6 ‑2)中得到的二值图中非零像素的最小边界框, 并扩展边界框的短边 使得边界框为 正方形, 将正方 形边界框中的局部区域作为与属性相关的图像局部区域。 6.根据权利要求1所述的一种基于CNN ‑Transformer双流网络的细 粒度服饰检索 方法, 其特征在于, 所述步骤(7)中利用Dilated ‑Transformer网络对步骤(6)中得到的局部区域 进行特征提取的方法包括如下步骤: (7‑1)将步骤(6)中得到的局部区域分割成n个相同大小且互不重叠的图像块, 并对图 像块进行 特征嵌入, 得到 长度为n且特征维度是d维的特 征向量序列; (7‑2)在步骤(7 ‑1)中得到的特征向量序列位首添加一个可学习的d维向量作为全局 token, 然后使用可学习的位置嵌入向量, 编码序列中每个向量的位置信息, 得到含有位置 信息的长度为 n+1的特征向量序列; (7‑3)从步骤(7 ‑2)中得到的长度 为n+1的特征向量序列中分离出1个全局token向量以 及n个图像块特 征向量, 并将n个图像块特 征向量表示成大小为 的特征图; (7‑4)将步骤(7 ‑3)中得到的特 征图以空洞率 为2的空洞采样方式分为 4个子特征图; (7‑5)将步骤(7 ‑4)得到的特征子图按照顺序堆叠起来, 子图的顺序由子图在特征图中 从左到右从上到下的空间位置决定, 然后 将二维的特征子图重塑成一维的子图特征向量序 列, 并在每 个子图序列的位首加入步骤(7 ‑3)中分离出的全局to ken, 得到 长度为 的堆 叠子图特征序列; (7‑6)将步骤(7 ‑5)得到的堆叠子图特征序列 输入到Dilated ‑Transfomer编码器中, 将 其作为自注意力机制中的Query, 然后将每个子图特征序列与其相邻的子图特征序列沿着 序列的维度进行拼接, 最后将拼接好的序列作为注意力机制中的Key和V alue, 使得子图在 进行自注意力机制的同时也能与其他子图进行交互, 提取有用的信息, 并且每个子图的感 受野将随着编 码器层数的增多而逐渐增大, 从而得到融合空间上下文依赖 关系的输出特征 序列, 此时的输出 特征序列还是子图特 征序列堆叠的表示形式; (7‑7)将步骤(7 ‑6)中得到的输出特征序列中的4个子图特征序列整合为1个长度为权 利 要 求 书 2/3 页 3 CN 115410067 A 3

.PDF文档 专利 一种基于CNN-Transformer双流网络的细粒度服饰检索方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于CNN-Transformer双流网络的细粒度服饰检索方法 第 1 页 专利 一种基于CNN-Transformer双流网络的细粒度服饰检索方法 第 2 页 专利 一种基于CNN-Transformer双流网络的细粒度服饰检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:37:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。