论文部分内容阅读
随着互联网上图像数据的快速增长,如何根据已知的输入图像生成高质量目标图像以完成图像转换和图像补全任务已成为计算机视觉领域的研究热点之一。针对这两种任务,本文提出了基于生成对抗网络的图像转换和图像补全方法。目前多数图像转换/补全算法都基于卷积神经网络(Convolutional Neural Networks,CNN)和生成对抗网络(Generative Adversarial Networks,GAN)。一方面,卷积神经网络中卷积层和转置卷积层的组合搭建了从输入图像到输出图像之间映射的编码—解码网络架构。另一方面,生成对抗网络除使用这种编码—解码网络架构作为图像生成网络之外,还增加了判别网络以完成对抗训练。现有基于GAN的算法在多视角图像转换应用场景下,其可扩展性仍需进一步改进。因此本文提出了基于共同编码信息生成对抗网络的多视角图像转换和补全算法(Mutual Encoding Info-Generative Adversarial Networks,MEIGAN)。算法首先使用多分支且部分网络层共享参数的共同自编码器进行多视角表征学习,这种多分支网络结构可以适应于不同视角数目的多视角表征学习,因此扩展性更好。接着使用表征学习的结果作为输入来完成第二阶段基于信息生成对抗网络的图像转换/补全任务。在MNIST数据集上对表征的t-SNE可视化和在低维表征空间的插值分析都表明了所学表征的有效性。在MNIST、CelebA数据集上的图像补全任务,和在3D椅子、MVC和CUFS数据集上的图像转换任务中,与现有最好方法的定性和定量对比都表明了MEIGAN的有效性。已有方法的损失函数大多使用像素级重构损失,这往往会导致模型倾向于生成模糊的图像。因此在人脸眼部补全任务中,本文额外考虑了同身份人脸的眼部参考信息,并将动差重构损失和像素级重构损失结合,最终提出基于动差重构损失的模范生成对抗网络(Exemplar Moment Reconstruction Generative Adversarial Networks,ExMRGAN)。为验证所提出的ExMRGAN的有效性,我们在Celeb-ID数据集上展开人脸眼部补全任务的实验。与基准模型ExGAN的定量、定性对比结果,以及和商业图像编辑软件Adobe Photoshop Elements 2018的定性对比结果,均表明所提出的ExMRGAN能生成更高质量的人眼补全图像结果。