基于生成对抗网络的文本到图像生成技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:klwxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网时代,人们获取图像的方式主要是通过搜索引擎在数据库中进行检索,但由于一句话可能对应很多不同的图像,所以很难找到想要的图像。随着人工智能技术的突破创新,文本到图像生成任务也具有了一定的可行性。文本到图像生成是一项涉及了自然语言处理与计算机视觉的跨模态任务,该任务的目标是不仅要保证生成的图像真实,而且要保证生成的图像与给定的文本描述语义一致。近年来,研究者以生成对抗网络(Generative Adversarial Networks,GAN)为基础,提出了一系列文本到图像生成模型,但由于该任务的复杂性,文本到图像生成模型的性能还有很大的提升空间。本论文为进一步提高模型的有效性,分别对现有模型的生成器以及判别器进行重新设计,具体研究内容如下:针对传统堆叠式生成器生成图像质量低且与文本描述不匹配的缺点,提出了一种基于语义融合的生成对抗网络(Semantic Fusion Generative Adversarial Network,SF-GAN)。主流的文本到图像生成模型都采用堆叠式的结构生成高分辨率图像,而这种结构容易导致生成的图像中存在伪像,并且这些模型只是简单地将句子向量与噪声向量串联作为生成器的输入,未充分利用文本描述,容易导致生成的图像与给定的文本描述不匹配。为了缓解这些问题,本论文所提的SF-GAN采用流线型生成器结构生成高分辨率图像。SF-GAN生成器中的基于语义的仿射变换模块(Semantic-based Affine Transformation Module,SATM)和基于语义的联合注意力模块(Semantic-based Joint Attention Module,SJAM)都可以从通道以及空间维度充分融合语义信息,使生成的图像更加符合给定的文本描述。通过在CUB公开数据集上的实验证明,相较于主流的堆叠式文本到图像生成模型,SF-GAN生成的图像更加真实、清晰,并且与给定的文本描述更加匹配。针对传统全局判别器无法对图像局部细节进行判断的缺点,提出了一种基于编解码结构判别器的生成对抗网络(SF-GAN-V2)。传统的文本到图像生成模型的判别器只能判断全局图像是否真实,无法对图像中的局部区域进行判别,从而导致生成的图像虽然整体符合语义,但是具体细节不清晰、不真实。为了缓解该问题,本论文所提的SF-GAN-V2使用编解码判别器代替原始判别器,并且为了融合高低级语义,SF-GAN-V2使用跳跃连接的方式连接编码器与解码器。编解码结构判别器不仅能够判断全局图像的真假,还能判断图像中局部区域的真假。此外,为进一步提高编解码结构判别器的定位能力,SF-GAN-V2还通过Cut Mix数据增强合成图像来训练模型。在CUB公开数据集和COCO公开数据集上的实验表明,SF-GAN-V2生成的图像更加清晰,局部细节更加准确。
其他文献
以自主研制的动态指向式旋转导向钻井工具原理样机为研究对象,在分析陀螺仪、三轴重力加速度计噪声特性的基础上,深入研究测量信号的处理方法,实现了对稳定平台转速、重力工具面角的准确测量。首先,介绍旋转导向钻井工具的国内外研究现状,对比不同旋转导向钻井工具的工作原理,分析动态指向式旋转导向钻井工具的优势,明确课题研究目标。其次,介绍定向钻井参数与动态指向式旋转导向钻井工具的工作原理,着重介绍其测量系统,并
随着信息技术的快速发展,互联网用户量和信息量规模不断扩大,海量的信息资源导致了信息过载。推荐系统是解决信息过载的有效方法。但是,现有的推荐系统仍存在稀疏性、冷启动等问题。为此,本文首先提出一种基于Bhattacharyya系数的相似度计算方法,来解决推荐系统中的数据稀疏问题;接着,提出基于标签感知的混合神经网络模型,来解决标签推荐中存在的稀疏、冗余和语义模糊问题,同时缓解了冷启动问题;最后,结合上
江北区慈城镇是中国历史文化名镇,拥有7000年的文明史、2500年的建城史、2200年的建县史以及1200年的县城史,是江南地区保存最完整的古代县城,是中国唯一入选BBC全球"传承的英雄"的文化保护典范,获得联合国教科文组织亚太地区文化遗产保护荣誉奖。
期刊
运动分割是计算机视觉与视觉信息处理领域的一种重要运用,它是分析视频场景与目标跟踪技术的基础,所以在很多方面都得到应用,比如:视频监控,汽车自动驾驶,自动导航,自动追踪等领域。近几年,视频数据在急速扩张,传统的聚类算法在面对如此高维的数据的时候已经显得很乏力,所以算法的改进是一直被广泛关注的课题,同样,在运动分割领域,高维数据,异常值数据,视角的不确定性都对传统算法提出了挑战,所以对现有的运动分割算
近年来随着智能交通辅助管理技术的不断进步发展,其为人们的生活增添了诸多便利。视频监控作为交通辅助管理的主要数据来源之一,其数据增长速度远超当前网络带宽的增长速度,为此实现视频流数据的高效处理是当前的一个研究重点。云计算虽然能实现数据的高效处理,但是中间数据传输延时较高,难以满足交通视频流数据处理时效性的需求。因此,边缘计算相关技术应运而生,其作为云端的算力衍生,在一定程度上缓解了以上问题。而国产龙
柔性相变执行器即使用柔性、可拉伸材料制成的相变执行器,在工业、医学、生物学、仿生机器人学等领域都有广阔的应用前景。本文设计、仿真并制备了两种结构的相变执行器,并搭建了三维重建系统,基于结构光三维重建检测技术对其应变性能进行了分析,主要研究内容如下:首先分析了相变执行器流体和超弹性体的模型,并设计了两种相变执行器的结构——单腔相变执行器以及双腔-微流道相变执行器,使用有限元分析(FEA)对这两种结构
指静脉特征识别技术凭借其安全性、易获取性、唯一性等优势在生物特征识别领域逐渐成为一个研究热点。但是限于拍摄环境、硬件系统和硬件成本,得到的图像其分辨率往往无法达到预期目标,分辨率低下的图像会严重影响识别系统的识别率。高分辨率图像拥有大量的图像细节,细节信息携带了丰富的图像特征,这对于指静脉图像的识别率至关重要。在这种情况下,通过基于学习的算法将低分辨率的图像转化为高分辨率的图像是一个可行的方案。图
物联网的快速发展,越来越多的物联网装置被部署到网络中负责数据的采集、存储、处理。在感知层的物联网装置负责收集用户的数据并传递,在网络中的物联网装置负责对数据进行处理。无论是感知层还是网络层的物联网装置均需要与其它装置进行互相通信,协作才能完成任务。在物联网装置进行通信前,数字标识作为其在网络中的身份证明,起着十分重要的作用。目前,物联网中主要采用注册服务器对物联网装置的标识进行集中管理。这种方式存
音频场景分类是对音频数据的识别和分类,即识别判断所记录声音的环境标签,可以应用于音频监控、异常发现和风险防控等多种安防监听系统。随着音视频监控等场合记录的音频数据越来越多,传统分类方法在面对大量数据时显现出了劣势,而此时深度学习技术则已被证明在利用数据特征和建立模式识别方面具有特定优势。本文以卷积神经网络为主要模型,从数据集和网络结构两方面对音频场景分类系统做出改进,分别在未引入更多数据量的前提下
换流站光测量系统远端模块的主要作用是实现该系统中电信号和光信号的相互转换,作为高压直流输电系统的核心设备,其运行可靠性对电力系统的安全稳定运行具有重要意义。然而,由于远端模块运行环境较为复杂,近年来因远端模块导致的超高压直流输电公司光测量系统故障频发。但目前对其运行状态检测及故障诊断技术的研究在领域内仍属空白,其失效趋势无法预测,运行状态难以判断,运维规范相对匮乏,设备全寿命周期管理无技术支撑。因