(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211028947.4
(22)申请日 2022.08.23
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 崔博非 胡习之 李洪涛 符茂达
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 周春丽
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/44(2022.01)
G06V 10/75(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06T 7/73(2017.01)
G06N 3/08(2006.01)
(54)发明名称
一种泊车场景下精确提取视觉SLAM静态特
征的方法
(57)摘要
本发明公开一种泊车场景下精确提取视觉
SLAM静态特征的方法, 对于停车场场景有行人和
车辆等动态物体的情况, 使用多线程并行, 利用
目标检测模型将车辆与行人框 出形成mask掩码;
同时摒弃目前VSLAM系统常用的手工特征, 选择
使 用改进的基于深度学习特征提取模型
SuperPoint进行特征提取, 让特征提取的精度更
高更鲁棒, 得出图像帧的关键点与描述子, 根据
生成的mask掩码筛选并剔除动态物体框中的特
征点, 利用剩余的精准静态特征点进行特征匹配
和相机位姿估计, 后续即可执行跟踪、 建图和回
环检测线程, 完成整个SLAM工作。 使用本方法降
低了记忆泊车场景中误匹配的概率, 可有效解决
SLAM算法难以剔除动态特征点、 场景识别精度低
的缺陷, 提高了记 忆泊车的可靠性。
权利要求书2页 说明书7页 附图6页
CN 115439743 A
2022.12.06
CN 115439743 A
1.一种泊车场景 下精确提取视 觉SLAM静态特 征的方法, 其特 征在于, 包括以下步骤:
步骤1: 对车前方的停车场场景提取图像, 对图像进行预处理后将图像输入到目标检测
网络中进行目标检测, 得到目标物的检测框;
步骤2: 筛选步骤1中输出的动态物体检测框, 并形成mask掩码, 与SuperPoint网络提取
的特征点结合使用, 剔除动态物体检测框的特征点, 并得到 关键点和描述子, SuperPoint网
络包括关键点和描述子的共享编码器、 关键点解码器和描述子解码器, 共享编码器用于对
图像进行编码得到特征图, 关键点解码器用于对获得图像中关键点的坐标, 描述子解码器
用于获取关键点的描述子向量, 其中, 对SuperPoint网络的改进包括: 将编码器中的所有卷
积改成深度可分离卷积, 其中, 目标检测和特征提取使用多线程并行技术, 在特征提取的同
时进行目标检测;
步骤3: 如果mask掩码代表的是行人, SuperPoint网络对掩码内的特征点进行剔除; 如
果是汽车, 则对比相邻帧的汽车目标检测区域, 相邻的两个目标检测区域的非公共部分的
特征点保留, 公共部分的特 征点进行剔除, 得到 筛选后的静态特 征点;
步骤4: 利用SuperPoint网络提取并剔除mask掩码内的关键点和描述子, 使用剩余的特
征点进行特征匹配, 继续执行视觉SLAM的tracking模块, 计算相机位姿并建图, 完成整个
SLAM工作。
2.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 步骤1中, 目标检测网络采用YOLOv5网络, 目标检测的过程包括:
输入RGB图像, 将输入图像缩放到网络的输入尺寸, 并进行 数据增强;
主干网络提取图像特征, 生成特征图, Backbone模块使用CSPDarknet53结构和Focus结
构来提取通用特征; 将提取的通用特征输送到Neck网络中提取更具多样性和鲁棒性的特
征, 输入到CSP2_X和CBL结构, 并经过上采样, 和主干网络输出的特征进 行拼接; 最后输出端
使用CIoU_LOSS作为Boundi ng Box的损失函数。
3.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 步骤2中采用的SuperPo int网络在训练前,
SuperPoint网络采用自监督的方式进行提取, 首先使用规则的几何形状作 为数据集训
练一个全卷积网络;
将未标注的真实图片利用所述全卷积网络的检测结果作为伪真值关键点, 并使用使用
单应技术将未标注的真实图片在不同尺寸下提取 特征, 生成伪标签;
生成伪标签后, 即可将真实未 标注图片放进SuperPo int网络中进行训练。
4.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 步骤2中, SuperPo int网络检测关键点和描述子过程如下:
输入一张H*W*3的图像帧, 将其灰度化后转化成H*W*1, 接着将图像输入到经过改进的
更加轻量 化共享编码器, 经 过编码器后, 输入图像尺寸 转化为Hc=H/8, Wc=W/8;
关键点解码器进行子像素卷积操作, 并将输入向量由H/8*W/8*65转化成H*W, 最终输出
各个像素点是关键点的概 率;
描述子解码器利用卷积网络得到半稠密描述子, 接着利用 双三次差值得出剩余描述,
最后通过L2归一 化得到统一长度的描述子 。
5.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征权 利 要 求 书 1/2 页
2
CN 115439743 A
2在于, 步骤2中的深度可分离卷积包括逐通道卷积和逐点卷积两个连续过程, 逐通道卷积是
给每个通道一个单独的卷积核进行卷积, 将卷积过程转化到二维平面内进行, 最终生成中
间特征图, 此环节的卷积核参数量为f*f*3, 生 成的中间特征图进行逐点卷积, 使用1*1*3卷
积核, 最终也输出m层特征图, 此部分的参数量为 1*3*m; 则逐通道核与逐点卷积的卷积核的
参数量为3*(f*f+m)。
6.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 步骤2中, 改进的SuperPoint网络的损失函数由关键点提取损失和描述子检测损失两
部分组成:
式中,
为关键点损失,
为为翻转后图像的关键点损失,
为
描述子损失, χ表示图像经编码网络模 型后对关键点的响应; χ ′表示原图经过翻转后经编码
网络模型后对关键点的响应; D表 示图像经编码网络模型后对描述子的响应; D ′表示翻转后
的图像经编码网络模型后对描述子的响应; Y表示关键点坐标标签; Y ′表示翻转后图像的关
键点坐标标签; S表示表示原图像和翻转后图像组成的图像对; λ为平衡因子 。
7.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 步骤3中特 征点的剔除方式为:
对于相邻两帧的检测出动态目标框的特征点分别为
表示第n帧
中的第i个特征点, 将相邻两帧检测同一动态物体目标框的交集作为最终的动态目标特征
点, 即D=DnDn+1, 将D集合中的特 征点作为 最终动态特 征点集合。
8.根据权利要求1 ‑7所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特
征在于, 步骤4中计算相机位姿过程如下: 将筛选出的特征点以及描述子进行图像匹配, 剔
除误匹配特征点, 根据匹配关系转化成2D点到2D点的对极几何问题, 假定x1、 x2为两张图像
上对应的匹配点归一化坐标, R为相机旋转矩阵, t 为平移矩阵, T表 示矩阵的转置运算, 则满
足
x2=Rx1+t
左乘xT
2t^:
等式左侧为0, 则:
即为对极约束表达式, 再按照最小重投影 误差即可求出
相机位姿。
9.根据权利要求8所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 利用RANSAC随机采样一 致性算法来剔除误匹配特 征点。
10.根据权利要求8所述的一种泊车场景下精确提取视觉SLAM静态特征的方法, 其特征
在于, 步骤4中在建图时, 若系统处于定位模式、 局部地图被占用或者刚刚结束重定位, 则不
插入关键帧。权 利 要 求 书 2/2 页
3
CN 115439743 A
3
专利 一种泊车场景下精确提取视觉SLAM静态特征的方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:39:12上传分享