论文部分内容阅读
从图像中恢复出场景的三维结构是计算机视觉领域中一个非常基本的问题。如果能够准确地估计出场景的三维结构,我们就能够了解图像中物体之间的三维关系,从而更好地进行场景理解。这将极大促进计算机视觉领域多种应用的发展,如机器人导航、视频监控以及2D转3D等。基于上述研究背景,本学位论文主要研究如何从单目图像中进行深度估计,包括摄像机运动下的前景背景深度估计以及基于机器学习的深度估计等,有效地解决了目前的深度估计算法中面临的算法适用性、三维结构相似性度量、特征选择、深度平滑性等问题,从而大大提高了深度估计的精度。总体而言,本论文的主要贡献如下:(1)提出了一个从视频序列中进行深度估计的算法。针对现有深度估计算法大多受限于特定场景的问题,我们在综合现有的方法的基础上,提出了一个适用于摄像机任意状态的前景背景深度估计的算法框架,无论当摄像机处于运动状态还是静止状态,该框架可以有效地从视频序列中估计出前景和背景的深度;特别针对摄像机处于复杂运动时的运动物体提取问题,提出了一种基于有效的外点去除的全局运动估计算法,提高了运动物体提取的精度,保证了恢复的深度图中具有较为完整的运动物体的轮廓。(2)提出了一个基于度量学习的深度估计算法。针对深度采样方法中三维结构相似性的度量问题,提出了利用学习的马氏距离代替传统的欧式距离来度量三维结构的相似性,有效地提高了深度采样算法的效果。并构造了关于马氏距离度量中参数矩阵的损失函数,通过生成的反映图像之间三维结构相似性的数据库实现了对这个损失函数的优化。此外,针对传统的深度融合方法速率较慢的问题,我们还提出了一个基于高斯加权的快速深度融合方法。(3)提出了两个基于深度学习的深度估计算法。首先,针对特征选择的问题,我们提出利用深度卷积神经网络建立原始图像与深度值之间的关系,实现了对反映深度信息的特征的学习,解决了传统人工设计的底层特征的二义性问题。同时,提出的基于全图卷积的深度估计方式,进一步降低了算法的运行时间。在此基础上,针对深度平滑性的问题,又提出了联合卷积神经网络和条件随机场的模型,通过这个联合的模型建立了原始图像与深度以及深度与深度之间的关联,并利用条件随机场的损失函数实现了该深度模型的优化。该方法生成的深度图中具有更清晰的物体轮廓,同时达到了深度准确性和平滑性的目的。与以往的方法相比,这两种基于深度学习的深度估计方法均不需要任何人工设计的特征,也不需要引入场景的几何约束或者语义信息,因此具有更强的适用性。