文本至图像生成的语义一致性研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:falconcarmack
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本至图像的生成任务旨在于利用生成模型对输入的文本特征进行语义解析,生成反映文本描述的图像。文本与图像的信息表示和特征表达的异构,使生成模型很难有效地解析文本语义,生成高质量图像。对此,文本至图像生成任务面临巨大的挑战。同时,跨媒体智能领域的发展,大量图文数据库的创建为该任务带来了新的机遇。因此,文本至图像生成是当前计算机视觉以及跨媒体智能领域研究的热点问题。本论文针对文本至图像生成任务中文本描述和生成图像的语义一致性问题进行研究。主要研究工作如下:(1)为了解决语义约束不足和非关键词干扰图像细节生成的问题,本论文提出了语义增强的文本至图像生成算法。该算法直接约束生成图像在语义上与真值图像匹配,并过滤文本描述中的非关键词。为了增强语义约束,提出了语义一致性模块。该模块,首先利用孪生神经网络提取生成图像与真实图像的全局特征。接着,利用对比损失函数约束:生成图像的语义特征和对应真实图像的语义特征距离尽可能近;生成图像的语义特征和非对应真实图像的语义特征距离尽可能远。最后,提出了新的滑动损失函数,平衡模块中困难样本对和简单样本对的训练权重。为了克服非关键词汇信息对图像细节生成的干扰,提出了注意力竞争机制。实验表明该机制可以有效地过滤非关键词的注意力信息,提高关键词对图像细节生成的引导。大量实验有效地验证了本算法大幅度增强生成图像的语义表达。(2)为了搭建文本模态与图像模态之间的语义桥梁,本论文提出了知识传输的文本至图像生成算法。该算法主要从跨模态语义蒸馏的角度搭建文本与图像之间的语义桥梁,并提出新的注意力机制帮助生成模型自适应地调节局部语义信息。为了降低文本与图像之间异模态语义隔阂,首次提出了跨模态语义蒸馏机制。该机制利用图像自编码——生成模型指导文本至图像生成模型更好地提取文本特征和生成高质量图像。具体地,首先训练图像自编码——生成模型;接着,提出跨模态蒸馏损失函数约束(文本至图像生成任务中的)文本特征在语义和类别分布上与(图像自编码——生成任务中的)图像特征一致。最后,图像自编码——生成任务中的生成模型和判别模型作为文本至图像生成任务的生成模型和判别模型的初始化。为了增强生成模型对细节语义的刻画,提出了文本——图像注意力交替更新模块。该模块帮助生成模型自适应地调节词汇特征与图像局部特征的权重,提升图像细节语义的刻画。实验结果表明跨模态知识传输的方法可以大幅度改善图像细节和全局语义,甚至复杂场景的目标布局也有着显著的改善。(3)为了降低图像分布的复杂度和提高生成模型对关键特征的捕捉能力,本论文提出了分布正则化的文本至图像生成算法。该算法从分布正则化的角度帮助生成模型更好地学习和拟合目标真实图像分布,以增强生成图像语义。为了降低图像分布复杂度,首次将变分自编码网络引入至生成对抗模型的判别模型中,提出了分布规范化模块。该模块有效地帮助判别模型辨识图像采样自真实图像分布还是生成图像分布。在该模块中,又提出了分布对抗损失函数,指导生成模型在规范化的特征空间中学习和拟合真实图像分布。文本抽象性和模糊性使生成模型容易出现语义解析偏差。对此,本文提出了语义挣解模块,对图像和文本特征挣解出有利于图像生成的关键信息。为了更好地驱动语义挣解,又提出了语义挣解损失。该损失函数基于分布统计量的约束,对图像和文本特征的关键和非关键信息进行挣解。实验验证了算法可以有效地提升生成图像分布的质量,生成高质量的图像。该算法在图像多样性和语义一致性有着很高的性能表现。此外,分布规范化模块和语义挣解模块有效地提升其他文本至图像基线模型的性能,具有一定的普适性。
其他文献
当今社会经济高速发展,国际竞争日益激烈,促使企业不停地进行深化改革。企业的发展离不开人,管理者和企业职工是绩效管理过程中的执行人和被考核方,二者缺一不可。但很多企业管理者绩效管理意识淡薄,所以在此基础上深化企业管理者对绩效管理的认识,总结企业在绩效管理道路上发现的问题并加以解决,已经变成企业成长道路上的重要任务。本文论述了企业在发展过程实行绩效管理的现状及实施后存在的若干问题,并对这些问题层层剖析
成贵铁路宜宾金沙江公铁两用桥为山区公铁合建桥梁,主桥为(116+120+336+120+116) m双层桥面拱桥。336 m主拱采用拱墩固结、拱梁分离的钢箱系杆拱,拱轴线为抛物线,矢跨比为1/3.36,拱肋采用钢箱结构,2片拱肋中心间距28.5 m。上层铁路桥面采用箱形边主梁、纵横梁体系的正交异性整体钢桥面板,主梁边箱内高3.0 m,内宽1.4 m;下层公路桥面采用工字形边主梁形式的正交异性板钢桥
学位
在建筑环境领域,由于室外气候变化的复杂性,既有研究通常将室外气候信息分解为一系列参数(温度、湿度等),然后逐一探究这些参数对建筑环境的影响,以体现室外气候的综合作用。然而,室外气候信息是一个整体,过度的分解势必导致难以反映气候影响的综合特征,同时也使得建筑环境分析方法愈加复杂繁琐。尽管在气象学领域中提出了一些综合气候指数,但由于其应用对象、目的不同,导致较难直接在建筑环境分析中使用。面向建筑环境分
大义山岩体为南岭地区重要的成锡岩体之一,本文结合资料及项目组高精度锆石LA-ICP-MSU-Pb定年结果将其划分为6个岩相(填图)单元,分别为细中粒斑状角闪黑云二长花岗岩(ηγJ3a)、中粗粒斑状黑云母二长花岗岩(ηγJ3b)、中细粒斑状黑云母二长花岗岩(ηγJ3c)、细粒少斑状黑云母二长花岗岩(ηγJ3d)、细粒斑状(含电气石)二云母二(正)长花岗岩(ηγJ3e)及细粒少斑状二云母正长花岗岩(ζ
三维机织复合材料由于纤维连续、多方向连接,并且无需使用热压罐等价格高昂的成型设备,使其成为克服单向及二维织物层合复合材料抗冲击、层间性能差、制造成本高等瓶颈问题最具前景的解决方案之一。但受自身材料性能和外部成型条件的影响,复合材料制件在成型过程中会不可避免地出现残余应力及固化变形,从而严重影响制件服役性能,降低成型精度,甚至导致制件报废。尽管目前已开展了大量关于复合材料固化变形的研究工作,但大多局
碳纤维增强铝基(Cf/Al)复合材料具有轻质、高比强度和比刚度、低热膨胀系数、耐高温以及良好的加工性等优良性能,在航空航天及民用等领域有着广阔的应用前景,特别是对于空间光学相机结构件。然而在Cf/Al复合材料制备过程中发现碳纤维与铝熔体间具有较差的润湿性,导致铝熔体难以充分地浸渗到碳纤维束中,制备的复合材料中存在较多的缺陷;同时在高温制备环境中,碳纤维与铝熔体也易发生严重的界面腐蚀反应,界面反应不
随着微机电系统技术的发展,面向微机电器件的金属微结构得到了越来越多的应用。金属微结构的制作方法有多种,其中掩膜电解加工方法以其成本低、污染小、工具电极无损耗、加工效率高等优点,在微细制造领域具有广阔的应用前景。然而,在掩膜电解加工过程中,由于阳极金属的各向同性腐蚀属性,加工中的侧蚀现象不可避免的发生。这种侧蚀现象使得微结构的非加工区域产生了过多的材料去除,严重影响了掩膜电解加工的定域蚀除能力,降低
混凝土结构在正常使用阶段是带裂缝工作的,服役期内的荷载及环境等不利因素将加速裂缝的扩展及新裂缝的生成,显著降低结构的适用性与耐久性,甚至导致突发事故。因此,实现混凝土结构裂缝的实时跟踪与监测意义重大。针对目前混凝土裂缝监测技术的不足(无法实时监测、成本太高或因裂缝出现后传感器与混凝土无法保持协调变形造成监测失效等),本文借鉴碳纤维水泥基复合材料传感器的应变自感知技术和思路,将不同纤维与纳米炭黑混杂
资产评估范围是明确双方资产交割的边界 基于资产重组和股权类投资项目之资产评估报告的必要性 (一)资产评估报告是资产重组和股权类投资项目的重要组成部分所谓资产重组,包括资产整体重组、实施主辅分离、分立分离等,也包括通过股权转让实施从"低小散弱"退出。所谓股权投资,通常是为长期(至少在一年以上)持有一个公司的股票或长期的投资一个公司,以期达到控制被投资单位,或对被投资单位施加重大影响,或为了
期刊