论文部分内容阅读
三维重建能恢复场景物体的空间结构,在自动驾驶、医学图像处理、虚拟现实等领域具有广泛的应用。多视图三维重建基于相机成像原理,从场景物体在不同视点下的二维图像中恢复出三维空间信息,具有成本低廉、适用性强的优点。传统的多视图三维重建方法基于手工设计的特征进行立体匹配,其在理想的朗伯体场景下能够取得较好的效果,但在纹理稀疏、非漫反射的条件下,由于局部特征提取困难,三维重建效果往往不佳。近年来,深度学习在计算机视觉领域得到了广泛的应用。深度学习方法基于大量训练数据、通过深层次的卷积神经网络(Convolutional Neural Networks,CNN)自动学习输入图像的高层、全局特征,与传统方法相比,深度学习提取到的特征语义性更强。受此启发,本文提出了一种基于深度学习的多视图三维重建方法,通过构建深度学习网络来进行立体匹配,提高了多视图三维重建结果的完整度和精度。本文首先对多视角图像进行预处理,通过运动恢复结构算法估计相机的内外参数,初步确定深度范围并选择用于进行立体匹配的视图。然后,本文构建深度学习网络进行多视角立体匹配,预测每张视图对应的深度图。本文首先通过2D CNN网络提取输入图像的特征,然后基于单应变换构造3D空间的匹配代价,使用3D CNN网络对匹配代价进行正则化,并通过Softmax分类得到初始的深度估计结果。接下来,本文基于深度估计的置信度对外点进行过滤,并使用深度残差网络对初始深度图进行微调,获得更准确的深度估计结果。最后,本文对深度图进行后处理,基于深度一致性对深度图进行过滤,并借助深度图融合技术构建稠密的三维点云模型。本文在TensorFlow框架和Python编程环境下,以大规模三维重建数据集DTU的79组数据作为训练样本,完成了对此多视图三维重建系统的构建工作。本文分别在DTU测试集和真实场景数据上对模型进行测试,并与开源三维重建软件VisualSFM、Bundler、OpenMVG、MVE、COLMAP进行对比分析。实验结果证明,本文所提出的方法能实现精确、完整地三维重建,且具有良好的鲁棒性。相较于传统方法,本文方法能更好地适应纹理稀疏、非漫反射等重建较为困难的场景。此外,本文还对立体匹配使用的视图数量的影响进行研究,发现增加匹配视图数目可以在一定的程度上改善三维重建的效果。本文还测试了所构建的多视图三维重建系统的运行速度,实验结果证明,本文方法处理速度较快,对单张视图进行深度预测所花费的平均时间约为4.8秒。