论文部分内容阅读
本学位论文主要研究数据导向的垮图像域转译相关问题。图像转译技术适用的图像域不仅限于可见光图像,多光谱图像,也包括深度图或者语义标签图。在本学位论文中,我们主要关注的是RGB图像到深度图的转译,以及近红外图像(NIR)到RGB图像的转译。围绕这两个图像域转译问题,我们提出了四种方法。其中第一种方法用于解决RGB图像至深度图的转译(即一种双目视图生成方法);第二种方法用于解决NIR至RGB的图像转译问题;第三,及第四种方法用于解决在低光照RGB图像约束下的NIR至RGB的图像转译问题。具体如下:1)一种基于GPU并行计算的快速双目视图生成算法近年来,由于3D视频内容的缺乏,单目视频转双目视频(即2D转3D)成为了人们关注的关键技术。虽然使用这项技术可以很大程度上丰富3D视频内容,但是实现自动化的2D转3D从技术上有着巨大的挑战。本章中提出了一种基于样本学习并使用GPU加速的双目视频快速生成方法。本方法包含以下几个步骤:1.基于样本学习的初始深度图估计;2.基于显著图和双边滤波的深度图优化;3.基于DIBR的双目视图生成。同时我们提出了本方法的GPU并行化方案。实验结果显示本方法的双目视图生成效果可以达到相关领域的领先水平,并且本方法通过GPU并行计算提速后与CPU运算相比有着近180倍的提升。2)一种基于不对称的循环生成对抗网络的近红外域到RGB域的图像转译转译方法近红外图像(NIR)与可见光图像(RGB)相比有着清晰地纹理但不包含颜色信息。本文提出了一种基于不对称的循环生成对抗网络(ACGAN)的图像域转译方法,用于解决NIR到RGB的图像转译问题。由于NIR图像是单通道图像,RGB图像是三通道图像,两个图像域从信息量上是不对称的。因此我们提出了不对称的循环生成对抗网络模型,该模型在不同的转译方向中的模型容量不是均等分配的。并且在模型的生成器中,我们结合了UNet模型与ResNet模型,在判别器中我们使用了 FPN模型。该模型凭借着128×128像素的大感受野,可以捕捉到多尺度的空域上下文信息。实验结果显示,本文提出的方法可以得到十分自然的NIR到RGB图像转译结果。同时,本方法具有良好的推广性,可以用于多种场景混合的数据。与现存最先进的方法相比,本方法在转译图片的逼真性和对未对齐的数据的适用性方面有着更优的表现。3)一种基于不对称循环生成对抗网络和低光照图像约束的近红外图像到RGB彩色图像转译方法RGB彩色相机在低光照下所拍的图像通常昏暗,多噪声且会丢失部分颜色信息。相比之下,近红外(NIR)相机虽然在低光照条件下容易得到清晰的纹理信息,但图像中不包含颜色信息。为此我们提出了一种将低光照RGB图像作为参考,将NIR图像转译为正常光照RGB图像的方法。本章中的工作是第四章方法框架在NIR与RGB融合方面的一个扩展。由于引入了低光照参考图像的信息,合成后的图像的要求不仅限于看起来合理,而进一步要求跟参考图像的颜色接近。这一技术中最大的挑战仍在于低光照的彩色图像与NIR图像数据通常做不到像素级的配准。为实现这一目的,本章中沿用了基于不对称的循环生成对抗网络的方法,并加入了一种下采样一范数损失函数。实验结果显示,这一框架可以有效地提取NIR图像中的纹理信息,以及得光照RGB图像中的颜色信息。通过对这两种信息的融合,本方法可以生成清晰且生动的彩色图像。与现有的图像融合方法相比,本方法生成的图像更加的接近于真实的正常光照彩色图像,受光照的影响较小。4)一种基于颜色和纹理双约束和SPADE生成模型的近红外和低光照RGB彩色图像融合方法近红外图像(NIR)通常在环境光照较低的情况下也有较清晰的纹理。因此我们提出了一种基于NIR约束的RGB彩色图像合成模型,用于NIR和低光照RGB合成。本章中所研究的应用问题与第五章相同。由于第五章中的方法中仍然沿用了跨图像域的L1范数作为约束,这种约束无法完全分离颜色和纹理信息,从而消除在训练目标上产生矛盾。这一矛盾在训练过程中有可能会使模型产生困惑,从而降低模型的稳定性。为解决这一问题,本章中提出了一种将颜色和纹理完全分离的单向转译模型。该模型中使用了两个颜色变分自编码器(颜色编码器与纹理编码器)以及一个SPADE生成器。实验结果显示,本方法可以有效地保留NIR图像中的纹理信息和低光照RGB图像中的颜色信息。与现有的方法相比,本方法生成的图像更加真实并清晰。并且由于使用了单向的转译模型,本方法与第五章中的方法相比更加简洁轻量。