论文部分内容阅读
由深度学习引领的近年来的人工智能研究浪潮虽然在监督学习领域取得了非常好的效果。无监督学习作为能够真正的让计算机自主的从无标签的来自于现实世界真实数据中进行学习的方法,能够避免繁琐的,监督学习中无法避免的数据标签化工作。要想让计算机能够更好的理解复杂的现实世界,最好的方式就是让计算机按照一定的方式生成对现实世界的表示。完成上述目标首先需要用到的就是生成模型。在近几年来生成模型中表现最为突出的就是本文中介绍到的变分自动编码器和生成式对抗网络。前者作为自动编码器的拓展,很好的将深度学习思想和统计学习结合在了一起,通过编码器网络可以图像的高维分布进行降维操作,然后又可以利用其解码器网络实现从低维数据分布自动生成一个与原始图像相似的图像的操作。生成式对抗网络则利用了零和博弈思想,利用生成器和判别器交替训练,最后能够实现从随机噪声到真实图像的生成的操作。然而变分自动编码器虽然实现了对真实图像的近似输出,但是其生成的图像总是比较模糊,无法生成高分辨率的图像。对于生成式对抗网络而言,其训练难度大,生成的图像有时候会失真严重,导致图像生成失去意义,严重的时候甚至会出现模型崩溃的现象。因此在后来的改进中研究者采取了结合变分自动编码器和生成式对抗网络的优点,提出VAE/GAN,对VAE和GAN进行联合进行训练,获得了不错的效果。但是原始生成式对抗网络固有的缺点,导致二者结合起来使用仍然无法达到非常好的效果。基于此,在本文中提出利用生成式对抗网络的改进型CGAN的思想,结合条件生成对抗网络来尝试在图像生成过程中添加人为的控制来改进基于变分自动编码器的生成对抗网络。同时,利用深度卷积生成式对抗网络在网络结构上的改进以及WGAN思想,引入梯度惩罚方法来优化基于变分自动编码器的生成式对抗网络。在基于变分自编码器的生成网络的算法流程中,我们将图像和条件特征图融合之后的图像作为输入,来改进算法,以实现对图像生成过程的人为控制。同时引入深度卷积神经网络,来优化生成式对抗网络,从而使得生成式对抗式网络获得的了更好的收敛速度和模型稳定性。将上述改进后的生成式对抗网络与变分自动编码器相联合,利用变分自动编码器提取特征,然后将提取到的特征向量和条件特征图作为生成式对抗网络输入,分别利用了二者在特征提取和生成性能方面的优点,从而获得的了更好的效果。并且利用条件生成对抗网络的特性,实现了对图像生成过程的人为控制,进而提出新的模型,并命名为VAE/CGAN。为了验证本文提出的模型的可行性,我们在CelebA人脸图像数据集上进行了大量实验,实验结果与原VAE、GAN及改进前的VAE/GAN相比,在图像清晰度、模型稳定性等方面都获得了更好的效果。