论文部分内容阅读
三维重构是计算机视觉领域中近年来研究的重点方向之一,它在智能家居、虚拟现实、文物重建等方面都有着至关重要的作用。直接利用彩色图像进行三维重构比通过如Kinect等深度相机进行三维重构的成本要低廉,因此本文进行视频序列图像的三维重构研究是有意义的。传统的三维重构方法必须人为选择特征进行立体匹配,对场景的要求较高且图像的局部特征提取存在困难,往往三维重构的结果精度不高。深度学习方法由于可以提取到更广泛而精确的特征而在计算机视觉领域得到了广泛的应用,三维重构自然也在其中。深度图作为三维重构的四种表现形式之一,由于重构的质量依赖于图像的深度信息,本文的主要研究内容是对如何精确估计图像的深度信息。本文对于视频序列图像釆集的场景分成摄像机两个全局运动状态和局部运动状态,论文主要进行如下两方面的工作:(1)对于目标场景或物体静止的摄像机全局运动状态(多为室内场景),本文提出一种基于无监督学习的改进MVSNet网络深度估计方法,通过深度学习网络来代替传统的特征匹配来提高三维重构结果的完整度和精确度。本文采用特征聚合模块提取并用组归一化以更好地提取图像的特征;采用改进参数的GRU结构以匹配成本量执行正则化并进行分类操作来估计输入图像的初始深度值;对初始深度图使用引入深度值相似因子的联合双边滤波算法进行后续处理;网络的训练采用稳健光度损失公式进行无监督学习。经DTU数据集上的验证分析,与最先进的算法相比,本文的算法提高了三维重构结果的精确度,平均完整度达到0.525。(2)对于包含运动目标物体的摄像机局部运动状态(多为室外场景),本文同样基于无监督学习设计一种基于运动模型的深度估计方法,通过对二维图像上的单个对象的运动进行显式建模,使用运动模型网络来估计三维场景中单个物体的运动向量,从而生成目标物体在目标帧的状态;使用Pack Net架构而非传统的深度估计网络学习从彩色图像到每个像素深度图的映射;使用重投影误差损失函数作为网络的约束条件之一进行无标签的单目视频的训练。通过KITTI数据集上进行训练测试,本文的方法在估计存在运动物体的视频序列时图像对应的深度方面优越于其他方法,深度图的阈值准确度达到0.880。综上,论文基于视频序列的目标三维重构研究的重点,根据获取视频序列的摄像机的两种状态设计了两种思路,并分别对这两种算法进行验证与探讨并在实验过程中完善优化。实验表明,本文提出的方法重构得到的结果更完整,深度估计的结果更精确。