论文部分内容阅读
随着5G网络的试商用,极高的网络传输速率使得终端设备可以轻松获得云端的计算和存储资源,这为移动终端视觉应用的发展提供了有力的保障。由于三维信息对大量视觉应用十分重要,智能手机厂商通过配置双摄像头或增加深度传感器获取静态拍摄时的场景结构信息,苹果和谷歌公司分别推出了不同平台的SDK实现运动相机下的场景结构获取,用于支持基于移动终端的增强现实应用开发。但是,移动终端较小的双摄基线和较小的相机运动尺度会导致深度不确定度的增加,从而增加了移动终端的场景结构估计的难度。在这个背景下,本文提出了微小基线输入下的深度获取和优化这个研究课题。在计算机视觉领域,基线是指拍摄两幅图像的相机光心之间的连线距离。相机之间的基线减小会使得深度估计的不确定性呈平方递增。对于双目立体问题,微小基线输入对视差估计的精度要求提高了。对于多视图几何问题,这样的输入使得对极几何的相关算法失效。因此,微小基线输入下的深度获取是通用场景结构获取问题的一种特别情况,不能直接采用立体匹配、运动结构估计和基于视觉的同时定位与建图技术中成熟的方案,而需要根据微小基线输入的特性进行重新考虑和设计。本文针对微小基线输入的特殊性,提出了基于双目、单目多帧的深度估计算法和深度后处理优化算法,在精度、速度和鲁棒性等多方面提升了深度估计结果,并给出了相应的应用场景和效果。本文提出的算法将近年来流行的学习方法融入视觉领域的一些传统方法,不仅有效克服了传统方法原本的缺陷,还在微小基线输入下超越了目前经典算法的性能。本文的主要创新点和贡献总结如下:1.本文提出一种基于频域相位回归的视差估计方法用于微小基线下的立体匹配问题,得到的视差估计精度相比于传统的相位方法提升了一个数量级,并在微小基线双目输入这种特定的条件下超越了基于代价估计和聚合的主流立体匹配方法。本文提出的方法将立体匹配问题转化为频域中的相位差回归问题。通过复值方向金字塔进行时频变换并筛选得到多方向多尺度的相位差信息,然后使用学习方法充分利用相位差的冗余度和局部梯度信息进行视差回归。该方法将适合微小基线输入的域变换与数据驱动的机器学习结合,克服了域变换方法固有的系统误差,从而提升了视差估计的精度。2.针对微小基线下的单目多帧输入,本文提出了两种不同的方法克服深度估计不确定性增加带来的对极几何失效问题。第一种方法是基于点线特征的联合优化法,通过增加线特征匹配提升了系统的鲁棒性和精度,通过传播的方式加速了深度稠密化步骤。这种方法无需提前标定相机内外参,用匹配特征在无畸变的图像坐标系下构建联合捆集优化方程并求解,能够同时得到相机内参、相对运动和稀疏点云结果。在联合优化中加入了线特征,能够弥补点特征在缺乏纹理的区域难以检测匹配的问题,既增加了捆集约束的鲁棒性,又提升了深度图在直线边缘的精度。另外,本文提出的基于传播的深度图稀疏到稠密方法,将深度稠密化步骤的时间缩小为原来的10%。3.本文提出的第二种微小基线下的深度估计方法是平行参考平面法。该方法使用低秩矩阵分解替代捆集优化直接进行稠密深度的估计,大大降低了算法的总计算时间,有效平衡了深度估计的速度与性能。该方法受到因子分解法和平面加视差框架的启发,根据微小基线输入的特点进行了如下设计:首先,简化了运动模型的表达和求解;其次,使用坐标变换误差最小化和图像块的光度误差最小化估计参考平面的点和运动;另外,本文还提出了基于几何相似度的参考平面平行程度的误差度量方式和基于观测矩阵特征值比值的质量评价方式。上述操作保障了基于参考平面的运动视差估计结果,从而保障了参考相机视角下的相对深度图质量。相比联合优化类方法,该方法将计算时间从分钟级降为秒级。4.最后,本文提出了 一种基于混合信息的深度优化框架,用于深度图空洞填补和超分辨率恢复。该方法结合了卷积神经网络的非线性映射能力和条件随机场模型的离散优化特点,得到了高精度的深度超分辨率结果,并且在边缘的准确度方面有明显优势。在本方法中,基于条件随机场的推断不仅仅依赖彩色信息,还采用不同的处理方法从低质量的深度图中获取高质量深度图所需的不同特征信息:选择最近邻作插值得到的深度定义先验状态势函数、将卷积神经网络得到的超分辨率结果和彩色信息一起用于定义转移特征函数、使用双线性插值的深度梯度信息定义掩模进行更新区域的控制。该方法控制了输入标签数目、有效抑制了彩色和深度不一致带来的误差,从而得到了高精度的结果和清晰的深度边缘。