论文部分内容阅读
室内三维重建的主要任务是通过利用多个视图或者单个视图的信息,恢复室内场景的真实原貌,重建的三维场景可用在室内导航、场景理解、增强现实等领域。目前大部分三维重建的研究都只聚焦于普通的RGB透视图像,而未涉及360度RGB全景图像。此外,现有的方法在处理杂乱、多遮挡场景时往往效果不佳。针对上述问题,本文基于单张RGB全景图像,对室内场景的三维重建展开了研究。由于室内场景的三维重建研究涉及多个子问题,本文主要关注室内布局重建和室内深度估计这两个基本子问题。在室内布局重建的研究中,本文基于Layout Net和Horizon Net网络架构进行改进,提出了两种布局重建方案。第一种方案基于Layout Net架构,利用编码器-解码器结构的神经网络提取全景图的特征,得到粗略的布局估计结果,并在后处理阶段使用梯度优化算法对布局估计结果进行优化。第二种方案基于Horizon Net架构,利用深度残差网络提取全景图的特征,使用LSTM模块改善布局估计的结果,并在训练阶段加入全景拉伸这一数据增强机制,在一定程度上减小了杂乱多遮挡场景下的布局重建误差。实验结果表明,本文的第一种方案在布局预测精度和重建效果上优于原始的Layout Net网络,第二种方案在所有指标上均超过原始的Horizon Net网络及其他主流的布局重建方法。针对室内布局重建方向存在的问题,本文提出了一种面向室内场景布局重建的全景数据集制作方法,对数据采集、全景图标注、真实布局信息获取、数据集划分等一系列关键流程进行了研究,完成了真实数据集和合成数据集的制作,并利用室内布局重建的两个方案,在制作的全景数据集上实现了室内场景的布局重建。在全景数据集的制作流程中,真实布局信息的获取方法为主要创新点,该方法成功解决了角点位置的推导以及边缘图和角点图的生成问题。在室内深度估计的研究中,本文提出了两种不同的室内深度估计方案。第一种方案采用间接法,将全景图像分割、单目深度估计、深度图合成相结合,对室内全景深度图进行了粗略估计。第二种方案采用直接法,基于URes Net网络架构,利用编解码结构的神经网络在单张全景图像上估计其对应深度图。本文在实验中分析并对比了上述两种方案的深度估计结果,论证了第二种方案的优越性。