基于跨模态相关语义及注意力机制的图像-文本互译方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:happyfen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习的不断发展,研究人员越来越多地关注到图像和文字的交叉领域,而图像描述和基于文本的图像生成正是图文交叉领域的两大研究方向。图像描述任务是根据一幅图片自动生成描述语句,基于文本的图像生成则是给定一段文字描述,生成与文本内容相符的图片。二者是两种模态之间的互生成,因为两种模态的不对称性,两个任务又各自面临着不同的挑战。对于图像描述任务,如何更准确的编码图像信息并让解码器产生更加自然流畅的句子是该领域研究的难点。而对于图像生成任务,研究重点则是如何提升生成器的性能以及增加模型训练的稳定性。为此,本文探索了以下几点内容:(1)由于图像的语义属性在一定程度上反映了图像的视觉信息,并且信息冗余较低,所以本文采用属性特征作为图像描述的编码信息。但是通用的属性特征含有噪声,因此我们借助跨模态检索找到图像的显著性词,然后构建显著词向量对属性特征进行线性加权从而降低噪声词的影响。另一方面在解码器生成句子时,我们发现常用的对数似然下的集束搜索并不能完全找到最佳的描述语句,于是本文根据跨模态相关语义提出了两种句子重排序的方法:基于视觉特征和文本特征的句子重排序和基于伪参考句子的重排序,根据候选句子在重排序下选出更符合图像描述的句子。(2)目前图像生成的工作大多关注于文本和图像的联合注意力机制,即如何让文本和图像在语义空间中进行更好地对齐,但是它们忽略了图像特征内部的注意力机制。因此本文提出将混合注意力模型引入到生成器中,对特征图和通道同时进行注意力关注,使得生成器能够产生结构更加合理的图像。在模型训练方面,由于传统损失函数容易出现模型训练不稳定的现象,为此本文提出在传统生成对抗损失中额外加入平方损失,使生成器得到更多的判别信息,进一步提升了生成性能。此外,本文在判别器中加入谱归一化,通过参数梯度的限制,增加了训练的稳定性。最后,在CUB和Oxford数据集上的定性和定量实验以及各个模块的消融实验,证明了所提方法的有效性。
其他文献
背包问题不仅具有重要的理论研究价值,而且在实际问题中有着重要的经济效益。背包问题现已在工业和金融领域的系统处理和数据库分配,资源分配以及投资决策中具有重要的应用,
阅读是语言学习的主要形式与途径,因此英语阅读是高中英语教学的重点,而语篇教学是提高英语阅读教学的有效途径之一。为了解高中英语教师如何运用语篇分析理论进行英语阅读教学,寻找适合培养高中生通过微观语篇分析提高英语输出能力的教学活动,本研究选定了延边一中及延边二中共三位教师及一位州教研员作为研究对象,旨在研究以下问题:(1)基于微观语篇分析的高中英语读后教学活动有哪些?(2)这些读后教学活动都有哪些特点
官房矽卡岩型白钨矿床位于薄竹山矿集区西南侧,其大地构造位于华南准地台之右江地槽褶皱带,即滨西太平洋与特提斯构造域之结合部位。大型的成矿规模、显著地接触控矿构造、清晰地围岩蚀变等特征使其成为薄竹山矿集区西南侧最为典型的矽卡岩型白钨矿床,因此该矿床的地质-地球化学特征研究对推动该地区找矿工作意义重大。本文通过详尽的野外地质调查以及系统的岩矿取样测试工作,对矿床地质特征、成矿花岗岩与含矿矽卡岩的岩石地球
天然免疫是机体抵抗病原微生物入侵的第一道防线。TANK结合激酶1(TANK binding kinase 1,TBK1)是病毒感染时IRF3、IRF7磷酸化及Ⅰ型干扰素表达的关键激酶,在抗病毒天然免疫应答和获得性免疫应答中发挥重要作用。为研究TBK1在伪狂犬病毒复制过程中的作用,本试验利用慢病毒介导的CRISPR/Cas9技术构建了猪TBK1基因稳定敲除猪肾细胞系。首先针对TBK1基因外显子2区设
研究目的:在科技飞速发展的今天,移动智能手机凭借其便捷化、高效化、私人化等特点,日益成为当代大学生日常生活中不可缺少的通讯工具,而"互联网+健身"这个新颖的运动形式也
近年来,如何有效激发员工创新行为成为热点议题,其中创新动机是重要的研究视角。现有研究大都囿于组织行为学理论,基于激励视角,从工作动机(内部动机和外部动机)展开相关研究
在机器博弈领域中,相比完备信息问题,非完备信息下的机器博弈更为困难。而定约桥牌作为规则最为复杂的非完备信息棋牌类游戏,如何在叫牌过程中战胜人类顶级牌手,对于目前的机器智能来说仍然是难以攻克的课题。在传统的桥牌叫牌策略研究中,基于强化学习算法和基于专家经验的蒙特卡洛方法采样算法对于桥牌叫牌策略的优化都存在缺陷,难以得到具备职业牌手叫牌能力的叫牌模型。为了降低叫牌策略算法研究实现的难度,本文将叫牌策略
太阳能空心通风内墙供暖系统是一种将太阳能空气集热器与空心通风内墙结合的供暖技术,它利用内墙结构蓄热,将白天蓄存的太阳能空气集热器收集的热量在夜间释放至房间空气,从而改善夜间室内热环境。目前将太阳能空气集热器与蓄热技术结合的供暖技术大多利用外围护结构蓄热,热损失较大,利用内墙作为蓄热结构可以将蓄存的热量全部释放进房间内,从而减小热损失。该系统的供暖效果和室内热环境取决于内墙蓄放热过程及系统控制参数。
由金黄壳囊孢(Cytospora chrysosperma)引起的杨树腐烂病是一种林木枝干病害,严重影响杨树的正常生长,在我国广泛发生。金黄壳囊孢是一种死体营养型病原真菌,即从死亡寄主组织中汲取营养。在死体营养型病原菌分泌的毒素中有一类新型的植物毒性蛋白,能够诱导坏死和乙烯生成,被称为NLP蛋白(Nepl-like proteins)。NLP蛋白作用多样化,既能作为具有致病性的毒性因子,诱导细胞的
巴达铜金矿床位于藏东富碱斑岩带南段,是藏东地区近年来新发现的大型铜金矿。本文对巴达铜金矿床地质特征进行了详细解剖,查明了该矿床的热液蚀变与矿化特征,厘定了矿床的成矿阶段。对不同成矿阶段脉体开展了流体包裹体岩相学、显微测温、激光拉曼光谱成分分析、C-O同位素和原位S同位素测试,再塑流体演化过程,揭示成矿物质沉淀机制,初步探讨巴达铜金矿床成因类型,取得的认识如下:(1)矿床地质特征:巴达铜金矿床含矿斑