论文部分内容阅读
图像翻译可定义为在充足训练数据的情况下,将场景或目标的一种表示形式转换为另一种形式。图像处理、计算机图形学和计算机视觉的许多问题可以看作是图像翻译问题。图像翻译问题包括但不限于图像着色、图像分割,图像超分辨率。传统上,很多图像翻译任务使用专用模型,随后出现了端到端的统一处理多种图像翻译任务的通用深度学习框架,该方法需要配对数据,而获取配对数据很困难且代价昂贵。无监督的图像翻译算法通过添加约束的方式解决无配对数据集的问题,但它们在处理物体转换任务时没有考虑这类问题的特殊性,在转换前景的时候也以一种不受欢迎的方式影响背景,比如背景颜色失真,在背景区域生成目标纹理模式等。我们认为一个可能的原因是网络瓶颈层使得低级信息丢失,另一个原因是网络本身没有注意力机制检测感兴趣区域。本文主要研究基于CycleGAN的图像翻译算法。针对现有算法在处理物体转换任务时出现的问题,提出了三种改进方案。采用跳越连接的方式,将生成网络的输入与输出连接起来,该方法可将低级信息传递到生成图像,从而解决背景颜色失真的问题;本文在对U-net结构和残差网络理解和研究的基础上,采用在不同分辨率下执行残差转换的方式,充分利用残差网络和U-net结构的优点,补充彼此的缺点,来提高转换效果;本文在对注意力机制理解和研究的基础上,将生成网络分为两个独立的网络,注意力网络用来预测感兴趣的目标,转换网络用来着重物体转换,解决在错误位置产生目标纹理模式以及背景颜色失真的问题。本文用缩放卷积替代反卷积,来抑制棋盘效应。本文在horse2zebra、orange2apple两个数据集上进行验证。与基本模型相比,跳跃连接解决背景颜色失真的问题,并且收敛速度快,但它没有解决在背景区域生成目标模式的问题。U-net结构和残差块结合的方式,既能保留原图背景信息又能减少在背景区域生成目标纹理模式。引入注意力网络的方式在更好地转换前景的同时,保留背景信息,并解决在背景区域生成目标纹理模式的问题,在马到斑马、斑马到马、苹果到橘子,橘子到苹果的转换任务中其平均Fréchet Inception distance(FID)值比基准模型分别降低了14.29、12.73、39.94,44.08,而在斑马到马、苹果到橘子的转换任务中,其平均FID比2018 NIPS上的Attention guided GAN模型高19.8、18.76。