(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211044355.1
(22)申请日 2022.08.30
(71)申请人 广州市玄武无线科技股份有限公司
地址 510653 广东省广州市天河区高普路
1021号501室6383号
(72)发明人 周斌 丁明 许洁斌
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 何卿华
(51)Int.Cl.
G06V 10/44(2022.01)
G06N 20/00(2019.01)
G06T 7/66(2017.01)
G06T 7/73(2017.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
(54)发明名称
一种商品姿态估计的方法、 装置及存 储介质
(57)摘要
本发明公开了一种商品姿态估计的方法、 装
置及存储介质, 方法包括: 获取目标商品图像, 将
所述目标商品图像输入姿态估计模 型, 以使姿态
估计模型利用特征编码器按照预设的特征尺度
对所述目标商品图像进行特征提取, 获得若干张
不同尺度的特征图像, 并利用特征解码器中的多
层感知机将若干张所述特征图像进行融合计算,
通过预设个输出通道, 输出每个姿态关键点的坐
标位置, 再根据所有所述姿态关键点的坐标位
置, 预测商品的摆放姿态, 输出所述目标商品图
像的预测姿态。 实现了对不同形状的商品姿态估
计。
权利要求书3页 说明书9页 附图2页
CN 115115851 A
2022.09.27
CN 115115851 A
1.一种商品姿态估计的方法, 其特 征在于, 包括:
获取目标商品图像, 将所述目标商品图像输入姿态估计模型, 以使姿态估计模型利用
特征编码器按照预设的特征尺度对所述目标商品图像进行特征提取, 获得若干张不同尺度
的特征图像, 并利用特征解码器中的多层感知机将若干张所述特征图像进行融合计算, 通
过预设个输出通道, 输出每个姿态关键点的坐标位置, 再根据所有所述姿态关键点的坐标
位置, 预测商品的摆放姿态, 输出 所述目标商品图像的预测姿态。
2.如权利要求1所述的商 品姿态估计的方法, 其特征在于, 所述将所述目标商品图像输
入姿态估计模型之前, 还 包括:
获取若干个训练样本, 其中, 每个所述训练样本标注了若干个姿态关键点, 所述姿态关
键点包括但不限于一个最顶端的中心点、 一个几何中心点和一个最底部中心点; 根据每张
商品姿态热图中的所述姿态关键点生成若干张单通道浮点热图, 其中, 一个所述姿态关键
点对应一张单通道浮 点热图;
将每张所述商品姿态热图的所有单通道浮点热图合成一张多通道浮点热图, 根据若干
张商品姿态热图, 获得若干张对应的第一多通道 浮点热图, 其中, 每个训练样本对应一张第
一多通道浮 点热图;
将每个所述训练样本的第 一多通道浮点热图输入姿态估计初始模型, 以使所述姿态估
计初始模型输出若干个对应的预测 值; 根据所述第一多通道浮点热图的真实值和预测值,
更新姿态估计初始模型的权 重, 获得姿态估计模型。
3.如权利要求2所述的商 品姿态估计的方法, 其特征在于, 所述根据所述第 一多通道浮
点热图的真实值和预测值, 更新姿态估计初始模型的权 重, 获得姿态估计模型, 具体为:
计算第一多通道浮点热图的真实值和预测值的均方差损失, 根据梯度反 向传播和梯度
下降法更新所述姿态估计初始模型的权 重直到所述均方差损失收敛, 获得姿态估计模型;
其中, 所述第一多通道浮 点热图上其中一个 像素点 (x,y) 的像素值h (x,y) 为:
;
为方差,
为所述第一多通道浮点热图的姿态关键点的坐标, 所述第
一多通道浮 点热图是以关键点 位置为中心点半径为预设像素的高斯 概率分布图。
4.如权利要求1所述的商 品姿态估计的方法, 其特征在于, 所述利用特征编码器按照预
设的特征尺度对所述 目标商品图像进行特征提取, 获得若干张不同尺度的特征图像, 具体
为:
将目标商品图像输入特征编码器, 以使所述特征编码器将目标商品图像进行特征提
取, 获取三张预设尺寸的特 征图像, 将三张所述特 征图像发送到特 征解码器中;
其中, 所述特征编码器包括三个特征编码模块、 一个块嵌入模块和两个 融合模块, 三个
所述特征编 码模块分别输出三张不同尺寸的特征图像, 三个所述特征编码模块之 间使用融
合模块连接 。
5.如权利要求4所述的商 品姿态估计的方法, 其特征在于, 所述以使所述特征编码器将
目标商品图像进行 特征提取, 获取三张预设尺寸的特 征图像, 具体为:权 利 要 求 书 1/3 页
2
CN 115115851 A
2所述目标商 品图像经过块嵌入模块输入到第 一特征编码模块中, 所述第 一特征编码模
块输出第一特征图像, 所述第一特征图像经过第一融合模块, 输入到第二特征编 码模块中,
所述第二特征编码模块输出第二特征图像, 所述第二特征图像经过第二融合模块, 输入到
第三特征编码模块中, 所述第三特 征编码模块输出第三特 征图像;
其中, 所述块嵌入模块用于将所述目标商品图像均匀拆分成N*N的第一特征块图像, 并
将所述第一特 征块图像以一维形式通过第一全连接层输出;
所述第一融合模块用于根据 所述第一特征图像的坐标, 将所述第 一特征图像拆分成若
干张第二特 征块图像, 将若干张所述第二特 征块图像连接后, 经 过第二全连接层进行输出;
所述第二融合模块用于根据 所述第二特征图像的坐标, 将所述第 二特征图像拆分成若
干张第三特 征块图像, 将若干张所述第三特 征块图像连接后, 经 过第三全连接层进行输出。
6.如权利要求1所述的商 品姿态估计的方法, 其特征在于, 所述并利用特征解码器 中的
多层感知机将若干张所述特征图像进行融合计算, 通过预设个输出通道, 输出每个姿态关
键点的坐标位置, 具体为:
将若干张不同尺寸的特征图像输入到多层感知机, 以使所述多层感知机通过上采样将
特征图像的宽度和高度都调整一致, 根据通道维度将所有特征图像连接融合, 使用第四全
连接层构建预设个输出通道数量, 连接融合后的特征图像通过预设个输出通道分别输出每
个姿态关键点的坐标位置, 其中, 输出通道数量 为姿态关键点的数量。
7.一种商品姿态估计的装置, 其特 征在于, 包括图像获取模块和图像姿态估计模块;
其中, 所述图像获取模块用于获取目标商品图像, 将所述目标商品图像输入姿态估计
模块;
所述图像姿态估计模块用于利用特征编码器按照预设的特征尺度对所述目标商品图
像进行特征提取, 获得若干张不同尺度的特征图像, 并利用特征解码器中的多层感知机将
若干张所述特征图像进行融合计算, 通过预设个输出通道, 输出每个姿态关键点的坐标位
置, 再根据所有所述姿态关键点的坐标位置, 预测商品的摆放姿态, 输出所述目标商品图像
的预测姿态。
8.如权利要求7所述的商 品姿态估计的装置, 其特征在于, 所述图像姿态估计模块包括
特征编码器单 元和特征解码器单 元;
其中, 所述特征编码器单元用于按照预设的特征尺度对所述目标商 品图像进行特征提
取, 获得若干张不同尺度的特 征图像, 具体为:
将目标商 品图像输入特征编码器单元, 以使所述特征编码器单元将目标商 品图像进行
特征提取, 获取三张预设尺寸的特 征图像, 将三张所述特 征图像发送到特 征解码器中;
所述特征编码器单元包括三个特征编码子单元、 一个块嵌入子单元和两个融合子单
元, 三个所述特征编码子单元分别输出三张不同尺寸的特征图像, 三个所述特征编码子单
元之间使用融合子单 元连接;
所述块嵌入子单元用于将所述目标商品图像均匀拆分成N*N的第一特征块图像, 并将
所述第一特 征块图像以一维形式通过第一全连接层输出;
所述融合子单元用于根据输入的特征图像的坐标, 将所述输入的特征图像拆分成若干
张特征块图像, 将若干张所述特 征块图像连接后, 经 过第二全连接层进行输出;
所述特征解码器单元用于将若干张不同尺寸的特征图像输入到多层感知机, 以使所述权 利 要 求 书 2/3 页
3
CN 115115851 A
3
专利 一种商品姿态估计的方法、装置及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:37:12上传分享