基于视觉关系的图像标题生成算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhu872007990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习在计算机视觉领域和自然语言处理领域不断取得成功,人们利用神经网络来描述复杂视觉概念的想法成为了可能。传统图像标题生成的方法主要依赖于视觉概念硬编码或给定的描述模板,难以产生多样化的图像描述标题。基于深度学习的图像标题生成方法大多直接利用卷积网络将图像编码为单一特征向量,然后将其输入循环神经网络产生文本描述。然而,这些方法未能充分挖掘图像中的语义信息,也未考虑到图像中不同区域间的结构化信息,从而致使图像解析程度不高、模型扩展性差。针对以上问题,本文对整个图像标题生成过程进行改进,主要工作如下:在图像本身蕴含的信息类别基础上,本文尝试将图像内部的区域视觉信息表示为区域特征有向图;同时,本文根据数据集中视觉关系三元组之间的数学统计信息将图中顶点之间的依赖关系分解为条件概率,进而为顶点之间的边赋予权值;之后,利用图神经网络来学习不同区域的图嵌入特征;最终,再联合图像区域的语义标签和位置信息,本文提出一种新颖的基于区域结构的视觉关系检测模型。实验结果表明,在谓语检测任务上,该方法在大规模数据集Visual Genome上取得了大幅度的性能提升。在视觉关系检测任务上,该方法也取得了富有竞争力的结果。相似场景中的图像知识在不同任务数据集上具有通用性,因此本文使用提出的基于区域结构的视觉关系检测模型对图像进行视觉关系提取,从而实现图像知识的共享。由于图像中的视觉关系三元组并不能直接使用到图像标题生成过程中,为此本文将视觉关系三元组表示为语义关系图的形式。基于图像的视觉特征和语义关系图表征,本文提出采用Transformer作为图像标题生成模型的主体结构来融合视觉与语义特征。对于区域视觉特征,利用多头注意力机制来关注图像不同区域的特征。对于语义关系图,使用图神经网络将语义关系图编码为语义特征嵌入矩阵,并使用双层注意力机制为图像标题生成模型提供指导性的语义信息。实验表明,本文提出的基于视觉特征和语义关系图的图像标题生成模型与主流模型相比,具有不错的性能表现。综上所述,本文提出的基于视觉关系的图像标题生成方法能够充分挖掘图像的图结构化信息,从一定程度上解决了视觉信息和文本信息的语义鸿沟问题。此外,该方法还可实现场景图生成、视觉关系检测等扩展性任务。
其他文献
随着经济的发展,人口老龄化以及疾病谱的改变,我国卫生总费用不断增加,一度超过了GDP的增速,因病致贫,因病返贫的家庭越来越多,全社会降低医疗费用的呼声越来越高。医保支付方式是医药卫生体制中的重要一环,是控制医疗费用的关键,对医保基金也具有控制作用。因此,医保支付方式改革对费用控制的研究对全社会来说具有重要意义。本文以扬州市X医院为例,从费用控制的角度对医保支付方式改革进行了研究。首先,通过查阅国内
本文首次采用中国制造业企业层面的能源消耗和产出微观数据,利用细分能源类型的二氧化碳排放因子换算得到微观企业环境绩效指标,即单位产出的二氧化碳排放量(二氧化碳排放强度),并试图以企业的劳动生产率为桥梁,结合中国出口企业“生产率悖论现象”,研究中国企业出口行为对其环境绩效的特殊影响机制。本文基于企业生产函数框架构建计量模型,逐步检验文中所提出的理论命题,结果表明:(1)出口造成中国企业二氧化碳排放强度
生态整体主义思想是现代西方生态环境运动的一种产物。生态整体主义思想发展成型于上世纪中后期,彼时,工业文明获得了长足的发展,但也给全人类所带来了前所未有的生态环境危机,生态整体主义思想正是在这样的背景下应运而生的。该思想在自然环境保护运动中形成,依据不断发展着的现代生态学理论,把价值观建立在整个生态系统的非人类中心主义的基础之上。生态整体主义要求人们不仅要满足人类的主体需求,更要关注整个生态系统的整
学位
本试验旨在探索饲粮可消化纤维(dF,半纤维素+果胶)与淀粉(S)比对长毛兔颗粒饲料加工特性、生产性能及盲肠菌群组成的影响。试验采用单因素完全随机化设计,在消化能和蛋白质相
随着居民生活水平的提高,人均消费水平不断上升,人们对产品的需求日益上升的同时,许多现实问题应运而生,如食品安全问题,尤为重要的是冷链品的安全问题。据统计,我国各种冷链
图像分辨率主要取决于采集图像的硬件设备性能,但提升硬件性能复杂且难度大、成本高。后来,图像超分辨率重建算法引起图像工程研究者重视,利用算法对单帧或序列低分辨率图像进行重建成为图像处理的一个研究热点。近年来,基于生成对抗网络的图像超分辨率方法确实改善了传统方法的不足,但重建结果的客观评价没有得到提升,甚至低于传统方法;由于生成对抗网络训练困难,不能通过相应的损失函数值判断训练进程,怎么使生成器和判别
胸部X光片(以下简称胸片)在胸部相关疾病的医疗诊断中起着相当关键的作用。许多胸部疾病,如肺炎、肺结核和心影增大,其早期筛查和后期复查的首选方法就是胸片。然而,胸片的解读并不容易,通常需要临床经验丰富的医生来完成。因此,开发基于人工智能的、对胸片进行自动识别的系统具有重大的临床应用价值,可有效减轻医生的工作量,同时提高医生阅片结果的准确性。目前已经有很多将深度学习应用于胸片自动识别的算法,但由于胸片
风能作为一种清洁能源已受到各国的关注,但风电场的大规模建设,对电磁环境造成了严重的影响。当机载雷达在风电机杂波背景下对运动目标进行探测时,因风电机具有叶片长度长、转速高且由金属材质制成等特点,提高了目标检测的虚警率,同时提高了邻近距离单元的检测门限,出现漏警率高的问题。本文针对上述问题进行研究,主要工作包括:(1)风电机回波信号建模及回波特性分析。首先用有限元分割的思想建立风电机回波的数学模型,并
随着经济全球化、信息化的发展,邻近地区之间的经济联系变得日益密切,城市之间的创新协作成为区域经济联合发展的内在动力。本论文的内容主要包括以下三个方面:(1)首先,根据城市间的专利转移数据,描述性统计分析长三角26个城市从2010年到2016年的区域创新演变过程,研究发现,长三角区域呈现“中心—边缘”的发展态势,以上海、杭州、苏州、南京等为代表的中心城市辐射带动作用明显,越靠近这些中心,则专利转移水
随着大数据时代的到来,智能物联网以及人工智能的快速发展和普及,基于CMOS工艺的传统的半导体器件以及相关的集成电路面临着巨大的挑战。从器件层面上来讲,当沟道长度缩小到10nm的尺度以下时,由于电子的隧穿效应,MOSFET器件的源漏两端之间的电流难以关断,导致电路的性能下降甚至是逻辑紊乱,这使得“摩尔定律”的发展面临终结;从电路架构上来讲,现有计算架构的设计基于冯诺依曼架,其重要特点是将计算单元和存