论文部分内容阅读
三维目标检测技术是数字图像处理领域的关键问题,在军事、工业等领域有着广阔的应用前景。深度学习是一个复杂的机器学习算法,通过对样本数据的内在规律进行学习,获取样本的深层次特征,进而更好的完成对样本的解释。近几年来,得益于基于点云和双目视觉的三维检测算法的发展,三维目标检测结果的精度得到显著的提高。然而,点云需要昂贵的激光雷达设备获取,双目成像设备的架设场景要求较高,且在工业应用方面,成本较高。因此,如何利用图像信息挖掘的优势,将现有基于单目视觉的三维目标检测算法改进,使其性能上能够与基于激光雷达和双目的三维目标检测算法媲美具有重要的意义。所以,开展基于单目视觉的三维目标检测技术的研究具有很强的学术意义和实用价值。本论文在对基于单目视觉的三维目标检测关键技术进行分析的基础上,分别对单目深度估计算法,基于单目图像目标深度优化算法,伪点云三维目标检测算法以及全景单目三维目标检测算法等关键技术进行了研究。本论文主要完成了以下四个方面的工作:1.深入研究单目深度估计方法,针对像素级深度估计任务中卷积神经网络和视觉Transformer作为主干网络分别缺失对全局信息和局部纹理信息表征的问题,提出了一种联合卷积神经网络和视觉Transformer的深度回归方法。通过重新构建卷积层的构成并在卷积模块后添加Transformer模块来构建编码器,编码器负责提取多尺度的图像局部和全局特征。采用多尺度卷积神经网络作为解码器对融合特征进行稠密化像素级深度回归。本方法利用视觉Transformer建模多尺度卷积特征的全局相关性,提高了深度估计预测的精度。2.深入研究了基于单目视觉的三维目标检测方法,针对单目三维目标检测精度的限制主要来自深度估计中前景目标位置误差的问题,提出了一种联合实例分割与几何约束的目标深度优化方法。重新设计了基于中心点回归的视觉实例分割模型获取目标三维高度分布。采用基于相机成像原理的深度分布计算,联合深度估计方法优化不同距离位置的目标深度,采用不确定度学习的方式对待检测目标深度进行优化,提高了深度估计方法对于不同位置的目标深度估计的准确度。3.深入探究了通过激光雷达获取的点云和由图像生成的伪点云对基于点云算法的影响。针对伪点云分布的长尾问题,提出了一种基于目标伪点云分布优化的单目三维目标检测方法。首先编码器通过整合Point Net++的点集抽象模块和Transformer模块为特征增加全局一致性。接下来使用带有多尺度特征级监督的解码器对伪点云进行重分布调整,完成伪点云分布的优化。本方法进一步采用基于点云的三维目标检测方法于伪点云数据上进行三维目标检测。实验表明该方法大幅提高了单目三维目标检测的精度。4.深入研究了基于全景图像的单目三维目标检测算法。针对从二维图像生成俯视图特征不准确以及缺失时域关联的问题,提出了一种基于长短时域特征融合和运动特征蒸馏的全景单目三维目标检测方法。分别利用不同的特征分辨率提取长短程的时域特征,利用基于Transformer交叉互相关模块的编码器将运动特征和深度信息联合编码并整合到融合长短时域的俯视图特征中,后续使用带有运动特征蒸馏技术的解码器完成空间三维定位。该方法融合了不同时间步长的全景目标特征表达,辅以嵌入的运动特征和深度信息,提高全景单目三维目标检测的精度。实验表明该方法能够提高全景单目视觉三维目标检测精度。本论文针对现阶段基于单目视觉的三维目标检测关键技术中存在的不足,分别从提高单目深度估计的精度、通过实例分割和几何约束优化前景目标深度,伪点云分布优化,以及在全景图像中引入长短时域信息和运动特征等方面,提出了多种提高基于单目视觉三维目标检测任务性能的算法。同时,对每个提出的算法进行了大量的仿真实验验证。本论文的研究成果对提高现阶段基于单目视觉的三维目标检测的精确度和稳定性,拓宽单目视觉三维目标检测的应用领域具有重要的理论意义和参考价值。