(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210801201.6
(22)申请日 2022.07.08
(65)同一申请的已公布的文献号
申请公布号 CN 114863573 A
(43)申请公布日 2022.08.05
(73)专利权人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 姚莉 刘欢 杨俊宴 吴含前
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 蒋昱
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/82(2022.01)G06V 10/774(2022.01)
G06V 10/26(2022.01)
G06T 17/00(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 113393522 A,2021.09.14
CN 113221953 A,2021.08.0 6
CN 113538569 A,2021.10.2 2
李冬冬.结合掩码定位和漏斗网络的6D姿态
估计. 《中国图像图形 学报》 .202 2,第643-651页.
审查员 朱雪梅
(54)发明名称
一种基于 单目RGB-D图像的类别级6D姿态估
计方法
(57)摘要
本发明公开了一种基于单目RGB ‑D图像的类
别级6D姿态估计方法, 本方法引入RGB ‑D图像特
征融合机制, 通过自注意力机制融合RGB ‑D图像
中目标实例的像素颜色特征和点 云几何特征, 获
取目标实例更好的特征表达; 并且引入类别形状
隐式编码先验来克服同一类别下不同实例物体
之间的形状差异。 本方法首先对单幅RGB ‑D图片
进行目标检测与实例分割, 结合深度信息计算出
目标实例采样点的三维坐标; 根据目标实例的类
别输入对应的类别形状编码先验, 基于一种多分
支的网络 结构, 分别预测目标 实例的点云模型和
采样点的对应 关系矩阵, 进而运算出采样点对应
的三维点云坐标; 最后解算出目标物体的6D姿
态。
权利要求书3页 说明书5页 附图3页
CN 114863573 B
2022.09.23
CN 114863573 B
1.一种基于单目RGB ‑D图像的类别 级6D姿态估计方法, 包括前置阶段、 训练 阶段和重建
阶段, 其特 征在于, 各阶段如下:
1) 前置阶段:
根据包含不同类别的物体实例三维模型数据集, 获取每个类别的三维点云隐式形状编
码;
2) 训练阶段:
训练样本通过单幅的RGB ‑D图片生成特定目标实例的特征空间, 结合对应类别的隐式
形状编码先验输入, 重建目标实例的标准归一化三维点云, 并且进一步预测对应的坐标映
射, 根据预测的坐标映射与实际的三 维坐标映射的差异, 以及点云重 建的误差, 计算综合损
失, 完成网络的拟合;
步骤2) 训练阶段 具体包括如下步骤:
步骤2.1: 根据目标物体的分割掩码裁剪出物体的RGB图像块, 再根据相机内参矩阵和
深度图计算物体可视区域每 个像素对应的三维坐标, 随机采样得到物体的采样点 集;
步骤2.2: 通过自注意力融合网络提取并融合物体实例的图像特征和点云特征, 得到实
例RGB‑D图像对应的特 征;
步骤2.3: 根据物体的类别 信息输入前置阶段中对应的类别形状编码;
步骤2.4: 利用网络的重建分支预测物体在标准归一化空间中的三维点云, 并计算出重
建点云的误差;
步骤2.5: 利用网络的另一分支预测一个辅助的对应关系矩阵;
步骤2.6: 对应关系矩阵的每一行为一个采样点对应于重建点云的分类one ‑hot向量,
将对应关系矩阵与重建点云相乘 得到每个采样点对应的标准归一化三维模 型坐标, 计算坐
标预测的误差;
步骤2.7: 根据步骤4、 步骤5和步骤6计算的误差对网络进行反向传播, 重 复训练直至 网
络收敛;
3) 重建阶段:
训练阶段完成后, 对单幅的RGB ‑D输入图片, 进行目标检测与实例 分割, 并结合深度信
息计算出目标实例采样点的三维坐标, 根据目标实例的类别输入对应的类别形状编码先
验, 通过网络预测采样点对应的归一化三 维点云坐标, 通过Umeyama算法计采样点集与对应
实例模型三维坐标点 集之间的变换矩阵, 进 而解算出目标物体的6D姿态。
2.根据权利要求1所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 步骤1) 前置阶段 具体包括如下步骤:
步骤1.1: 将同一类别的物体实例统一位姿朝向, 缩放到单位尺度, 形成标准归一化的
三维模型数据集, 用
表示, 其中 C为三维模型的类别数
目,Nc为类别c中三维模型的数量, 则表示类别 c中第i个实例物体的三维点云;
步骤1.2: 利用归一化的三维模型数据集
训练一个点云自编码器网络, 用
和
分别
表示训练好的编码器和解码器;
步骤1.3: 利用训练好的点云编码器
对每个三维模型采样点进行编码, 三维模型
权 利 要 求 书 1/3 页
2
CN 114863573 B
2对应的隐式特 征编码用
表示;
步骤1.4: 将每个类别中所有物体实例的隐式编码向量逐元素取平均, 得到每个类别的
平均隐式编码向量, 称为类别形状隐式编码, 用
表示, 则
。
3.根据权利要求1所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 所述步骤2) 训练阶段的训练样 本包括不同场景下的RGB ‑D图像、 图像中对应目标物体的
三维模型、 分割掩码及类别信息、 各个类别的隐式形状编码和目标物体二维像素点对应的
归一化点云模型三维坐标映射。
4.根据权利要求2所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 所述前置阶段步骤1.2中:
点云自动 编码器网络训练时, 损失函数为采样点云与重建点云的C hamfer距离误差:
其中P为采样点云,
为重建点云, a、 b分别表示 点集P和
中的采样点 坐标。
5.根据权利要求1所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 所述训练阶段步骤2.1中:
需要根据深度信息计算目标物体二维像素对应的三维坐标, 并随机采样768个坐标点,
若目标实例的像素点 不足768, 则重复采样, 补足至足够的采样点。
6.根据权利要求1所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 所述训练阶段步骤2.4中:
网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练, 其
中点云重建误差:
其中S为重建点云的预测值, Sgt为物体标准归一 化三维点云模型。
7.根据权利要求6所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 所述训练阶段步骤2.5中:
损失函数引入了针对 对应关系矩阵的交叉熵损失:
其中M为预测的对应关系矩阵, n是采样点的个数, 也就是矩阵M的行数, M[i,j]表示矩
阵第i行第j列的元 素。
8.根据权利要求7所述一种基于单目RGB ‑D图像的类别级6D姿态估计方法, 其特征在
于, 所述训练阶段步骤2.6中:
网络两个分支分别根据重建点云的误差和坐标预测的误差来进行过反向传播训练, 其权 利 要 求 书 2/3 页
3
CN 114863573 B
3
专利 一种基于单目RGB-D图像的类别级6D姿态估计方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:44:45上传分享