论文部分内容阅读
近年来,基于深度学习的方法在多视图三维重建深度估计方面表现出较强的竞争力,根据相机成像原理可知透视线上的任何一点都可以对应成像平面上的同一成像点,无法根据单幅图像上的像素点唯一确定它在三维空间中的对应点。多视图三维重建算法可以消除这种多对一的不确定性,并且多视图数据是对同一目标对象的不同描述,每个视图的关注点有所差异,不同视图之间可以提供互补信息,使用多视图可以提取到更加全面的目标特征表示,有助于提升三维重建的性能。现有的多视图三维重建算法中基于构建三维的cost volume方法可以很好地捕获物体的几何结构,并且减轻由于透视变换和遮挡所引起的图像失真的影响。然而,由于三维卷积神经网络涉及的感受野较大,重构的深度图边界可能会出现过度平滑的问题,且三维卷积神经网络训练过程中存在显存需求大和运算时间较长等缺点,一定程度上限制了高分辨率深度图的输出。受到人类视觉系统可以从复杂的视觉场景中选择性地关注所观测到信息中最重要的部分,并且忽略其他可见次要信息的注意力机制启发。为了充分有效的利用有限的计算资源处理大量的视觉信息,缓解深度神经网络计算量过大和多视图三维重建深度图估计中缺失图像的细节信息等问题,本文提出基于注意力引导的多视图网络用于深度图估计,该算法用MVSNet预测一个低分辨率的粗糙深度图,同时考虑到高质量的细节特征信息对多视图三维重建具有重要的影响且自然环境中的参考图像包含了重建过程中所需要的边缘细节信息,因此,本文使用U-Net框架提取参考图像不同尺度的细节特征信息用于指导深度图精细化的过程。最后,将得到的多深度图进行去噪融合得到图像对应的三维点云模型。本文的主要工作如下:
1、将相机几何和深度学习相结合,采用卷积神经网络强大的特征学习能力提取不同视角拍摄图像的二维特征表示,利用获得的图像特征以及对应的相机参数,通过稠密匹配和三维卷积神经网络回归包含物体三维结构的粗糙深度图。由于自然环境中的参考图像包含了重建目标的边缘细节信息,本文将参考图像中提取到的目标纹理细节信息和包含三维几何信息的粗糙深度图相拼接,使用注意力网络引导粗糙深度图的精细化。
2、使用基于视点的多深度图融合算法将不同视角的深度图集成到三维空间中生成三维点云模型。为了提高点云模型重建的准确性和完整性,本文通过概率图来衡量深度图预测的置信度,滤除预测的深度图中置信度低于阈值的噪音点,不同视角深度图之间通过深度一致性准则约束,融合深度图形成目标点云模型。
3、由于网络使用数据量较大以及三维卷积神经网络的使用,导致网络训练时间较长。本文通过对深度学习模型并行算法的研究分析,对算法中比较耗时的部分使用基于GPU加速的CUDA技术优化多视图三维重建算法,提高神经网络的收敛速度,减少网络训练的时间开销。
实验结果表明,本文算法的重建表面更加完整,尤其是在图像的低纹理、反射表面、重复纹理等区域中生成了更详细的点云,具有较好的重建效果。对算法中比较耗时且可并行执行的部分利用基于GPU的CUDA并行编程技术优化,进一步提高了三维重建算法的执行效率,可以更快地获取模型的训练结果。
1、将相机几何和深度学习相结合,采用卷积神经网络强大的特征学习能力提取不同视角拍摄图像的二维特征表示,利用获得的图像特征以及对应的相机参数,通过稠密匹配和三维卷积神经网络回归包含物体三维结构的粗糙深度图。由于自然环境中的参考图像包含了重建目标的边缘细节信息,本文将参考图像中提取到的目标纹理细节信息和包含三维几何信息的粗糙深度图相拼接,使用注意力网络引导粗糙深度图的精细化。
2、使用基于视点的多深度图融合算法将不同视角的深度图集成到三维空间中生成三维点云模型。为了提高点云模型重建的准确性和完整性,本文通过概率图来衡量深度图预测的置信度,滤除预测的深度图中置信度低于阈值的噪音点,不同视角深度图之间通过深度一致性准则约束,融合深度图形成目标点云模型。
3、由于网络使用数据量较大以及三维卷积神经网络的使用,导致网络训练时间较长。本文通过对深度学习模型并行算法的研究分析,对算法中比较耗时的部分使用基于GPU加速的CUDA技术优化多视图三维重建算法,提高神经网络的收敛速度,减少网络训练的时间开销。
实验结果表明,本文算法的重建表面更加完整,尤其是在图像的低纹理、反射表面、重复纹理等区域中生成了更详细的点云,具有较好的重建效果。对算法中比较耗时且可并行执行的部分利用基于GPU的CUDA并行编程技术优化,进一步提高了三维重建算法的执行效率,可以更快地获取模型的训练结果。