论文部分内容阅读
视觉SLAM是智能机器人和无人驾驶汽车在未知环境中实现完全自主导航的关键技术。传统的视觉SLAM重在几何的定位和建图,没有感知环境的语义信息,因此,在其基础上,能够构建具有语义信息地图的语义SLAM是目前的研究热点。在现有语义SLAM方案中,语义信息的获取主要是基于二维图像的目标检测或语义分割得到的目标语义,然后将获得的语义信息映射到聚类分割出的3D点云团,从而间接得到对应帧的3D点云语义信息。这种获取目标语义信息的方式不是基于对原生3D点云的直接特征提取,存在处理方式不直接、语义效果不佳、深度信息不充分、3D边缘分割模糊等问题。此外,传统的视觉SLAM和现有语义SLAM方案主要局限于对静态环境的处理,无法很好地应用于复杂动态场景。因此,本论文针对上述研究方案的不足,研究基于3D点云深度学习的视觉语义地图构建方法。利用RGB-D传感器信息,先在ORB-SLAM2基础框架上加入了动态物体检测,再使用3D点云语义分割方法获得场景语义信息,最后融合语义信息构建了经过动态物体检测与剔除的3D语义地图。所构建的语义地图可用于室内服务机器人的定位和导航、场景语义理解等,具有重要的理论意义和良好的应用价值。本论文的主要完成工作和成果如下:(1)分析了视觉SLAM前后端与优化的基础理论和算法框架,简述了语义SLAM的语义获取思路和地图构建方法,并根据不同的场景适应性和语义实现方案,设计了语义地图构建的整体研究方案。(2)针对基于RGB-D传感器的视觉SLAM展开研究,在ORB-SLAM2视觉SLAM框架中增加了动态物体检测模块,提出了一种基于3D点云深度学习的视觉语义地图构建方法。首先,通过Kinect相机采集彩色图和深度图;然后,利用改进的ORB特征提取算法提取参考帧和当前帧图像的ORB特征信息,对相邻帧特征进行匹配来初始化位姿与重定位;接着,通过3D点云语义信息预筛选可能存在的动态物体;最后,利用帧间相机运动一致性算法排除相机运动,以及通过光流法设置动态阈值,检验可能运动对象的特征点是否运动。由于光流法效果的局限性,本论文设计并实现了一种基于三维视觉的多视角几何动静点检测算法,其动态特征点的检测效果优于光流法,提高了ORB-SLAM2的动态场景适应能力。(3)针对现有语义SLAM方案在3D语义信息获取方法上的局限性,研究了直接对3D点云进行特征提取的语义分割方法,提出了一种基于3D点云深度学习的语义信息获取算法。首先,在点云深度学习网络Point Net的基础上,替换网络中MLP结构的特征提取模块为动态图卷积的特征提取方式,加强了网络对相邻点特征信息的关联学习能力;然后,设计了基于点云的空间金字塔池化结构,再次增强了网络对于细粒度特征的学习和提取能力;最后,将获得的语义信息用于语义SLAM系统中后续的语义库构建和语义地图的融合。(4)针对去除动态物体后的地图和语义信息的更新和融合展开研究,包括动态语义地图构建的算法流程和系统总体设计、语义信息库的构建、通过语义融合算法进行八叉树动态语义地图构建和占有率更新、局部地图和全局地图的光束平差法优化。此外,研究八叉树语义地图的构建,构建适用于室内服务机器人视觉定位和导航、场景语义理解的语义地图。