基于动态区域的文本生成图像方法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:tang070932
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人工智能领域中,多模态任务通常要比单模态任务更加的复杂。因此,在许多多模态任务上,目前的模型还难以达到被广泛应用的标准。基于文本的图像生成任务是一个典型的多模态任务,要求模型根据文本信息生成合理的图片。最近,因其挑战性,以及潜在的应用性,受到了国内外科研界的密切关注。当前,由于生成式对抗网络显著的提高了图像生成模型的效果,大量的以生成式对抗网络为基础的基于文本的图像生成模型被提出。目前主流的文本生成图像模型存在两个缺点:(1)传统的文本与图像融合层只关注于捕捉单词特征与像素级别的图像特征之间的联系,没有关注单词特征与区域级别的图像特征之间的关联性;(2)尽管深层卷积网络可以将文本与图像的融合结果扩张到更大的特征区域上,这个过程难以处理图像中复杂的几何结构。总的来说,在传统的基于文本的图像生成模型中,模型忽视了特征图中非局部特征的重要性。为应对以上问题,本文提出了一种全新的文本图像融合的方法,基于动态区域的文本图像融合层。此方法将长距离依赖关系学习,以及图像的区域特征修正引入到了模型中,缓解了目前主流模型只关注图像局部特征的问题。模型可以动态的将特征图依据特征点的语义关系划分成不同的区域,并且以区域为基础对特征图进行基于文本信息的优化。同时,还可以使得卷积网络从其并不擅长的长距离依赖关系建模中解放出来,这是对处理局部特征为基础的生成器的补充。除此之外,本文发现了目前在基于文本的图像生成模型中广泛使用的基于注意力机制的文本图像相似度损失函数的不足。模型生成的图片与真实数据集之间的差异性使得此损失函数不能有效的利用对比学习提升模型的效能。本文在计算文本信息的后验概率时引入了真实的图像数据,这意味着在匹配文本特征的计算过程中,生成的图像数据不但要彼此之间互相区分,还需要与真实的图像数据进行区分,迫使生成器合成出与文本信息更加一致的图片。本文将模型在Caltech-UCSD Birds 200 dataset(CUB)和Microsoft Common Ob-jects(COCO)这两个主流数据集上进行了实验,验证了模型的效果。相比于目前最先进的模型,本文的模型取得了极具竞争力的效果。
其他文献
由胶孢炭疽菌(Colletotrichum gloeosporioides)引起的橡胶树炭疽病害严重制约橡胶产业的发展,其主要通过自然孔口、伤口侵染引起橡胶树发病。表观遗传是指核苷酸序列未发生改变的情况,基因表达发生了可遗传的变化,主要涉及组蛋白修饰、DNA甲基化、染色质重塑等。其中,组蛋白乙酰化能促进基因转录表达而组蛋白去乙酰化能抑制基因转录表达。组蛋白乙酰化修饰在胶孢炭疽菌的致病性及胶孢炭疽菌
This thesis examines the debate surrounding the notion of ren仁(humaneness)and yi義(righteousness)based on Wang Bi’s王弼(d.249)commentary on Laozi老子or Daodejing道德經.It explores how Wang Bi developed the mo
学位
印度洋具有广阔的海域,是世界第三大洋,其北部封闭,南部与大西洋相连接,既具有9074米的阿米兰特海沟,又具有深海热液区等复杂地貌。印度洋地处热带和亚热带地区,同时又与南冰洋相连,此外在印度洋的北部形成了特有的季风洋流,使得印度洋具有复杂的温度和生态环境。复杂的地理、温度、湿度条件造就了印度洋微生物的多样性。为了适应复杂多变的的环境,该地区的微生物不仅需要改变自身的营养摄取方式,还需要改变其代谢途径
在这篇文章中,我们研究了两类随机偏微分方程——伴随有小扰动的带反射的随机Burgers型偏微分方程和白色分数高斯噪声驱动的随机热方程.对于随机Burgers型方程,主要工作是证明其大偏差原理.这项工作的主要困难是来自于方程的项的高度非线性以及由反射造成的奇异性.近期,Matoussi,Sabbagh和Zhang[26]提出了弱收敛方法的一个充分条件,经讨论发现这一充分条件非常适合用来处理带反射的随
学位
学位
近几年来中概股频遭浑水、香橼等机构恶意做空,股价持续低迷,市值被严重低估,相对而言国内证券市场监管体系不断完善、政策扶持力度加大、投资者热情高涨,许多中概股萌生退意,纷纷伺机回归。在这样的大背景下,奇虎360科技股份有限公司(以下简称360公司)于2016年7月完成私有化退市,并经过一年半的时间,于2018年2月通过借壳的方式成功登陆A股。作为中概股回归案例中体量最大的公司,其借壳成功的代表性不言
得益于互联网及计算机技术的发展,一种新兴的金融资产(数字货币)——比特币应运而生。自从2009年1月3日比特币的创世区块诞生以来,比特币的价格和总体市值在这诞生的10年中历经波动却水涨船高,特别是在2017年出现了比特币价格快速上涨的“大牛市”,比特币开始成为人们津津乐道的话题。随着比特币作为金融资产的属性日趋加强,其价格的变动将越来越多地表现出对金融市场其他资产价格和风险的溢出效应,因而研究探讨
我国经济不断发展,优秀人才需求日益严峻,薪酬制度体系不足以留住企业核心人才。股权激励是激发管理层骨干以及技术人才以充沛热情和创新力积极投入工作,努力达成业绩目标的有效工具。研究股权激励方案设计与其实现的实施效果,可以更有效地帮助企业吸引海内外精英,稳定内部技术骨干人才,捆绑员工与股东之间的利益链条,加强员工忠诚度,实现公司战略扩张,提高核心竞争力。本文选取临床医疗服务行业内上市时间最久、营收规模领
直接乙醇燃料电池有望成为解决化石能源危机,缓解环境恶化趋势的候选者。阳极催化剂作为电池中的核心部分,一直都是广大研究工作者的主要研究开发对象。此外乙醇阳极电催化氧化反应历程复杂,期间产生大量的中间体产物会毒化催化剂活性位点,造成催化活性的下降。基于此背景,本论文首先制备单金属Pd催化剂并研究其对于碱性介质中以及碱性乙醇溶液中的吸附与催化行为,再分别制备二元Pd-Sn/C、Pd-Co/C催化剂和三元