论文部分内容阅读
经过多年的发展,诞生于2014年的生成对抗网络已经成为了图像领域的主流算法之一。文本生成图像、图像文本标注等问题是计算机视觉和自然语言处理领域的热点问题,这两个问题都在研究文本和图像间的对应关系。受到这两个工作的启发,既然根据文本和图像间的对应关系能实现图像和文本的相互生成,那么也一定能根据这种对应关系实现图像的修改。随着互联网带宽和移动设备的飞速发展,图像修改的需求在人们的日常工作和生活中越来越高,但是常见的图像修改软件往往都有很高的操作门槛。因此,对图像修改方法进行深入研究,结合深度学习提出基于生成对抗网络的图像修改方法具有重大意义。基于上述背景,本论文围绕基于生成对抗网络的图像修改方法展开研究,提出了一种根据文本信息修改图像内容的方法,使生成图像和原始图像整体相似而局部不同。通过分析国内外生成对抗网络的研究现状和生成对抗网络在图像领域的应用,本文针对图像修改提出了新的方法,取得以下成果:(1)本论文提出一种基于生成对抗网络的语义控制图像修改方法。使用Skip-Thoughts模型对图像描述进行编码得到语义信息,在生成模型和判别模型中加入该语义信息,让生成模型能够根据语义信息来生成图像,并通过引入两个图像重建损失,使得生成图像和原始图像整体相似而局部不同,从而达到修改图像的目的。(2)本论文对提出的基于生成对抗网络的语义控制图像修改方法进行了改进。使用fastText模型从词层级对图像描述进行编码得到更细粒度的语义信息,再使用注意力机制将图像分为前景和背景,让生成模型和判别模型仅关注图像的前景,最终结果由生成图像和原始图像融合而成。在判别模型中引入局部判别器,在多尺度上显式判断生成图像和输入描述是否匹配,提高判别模型的判别能力再间接提高生成模型的生成能力。并使用联合训练和分阶段训练的方式解决没有预先标注的Attention map的情况下注意力模型训练难的问题。