基于注意力机制与高层语义的视觉问答研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:djs4520345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据、高性能计算工具、深度学习技术的相继出现,人工智能迎来了第三次发展热潮。深度学习模型在计算机视觉、自然语言处理、语音识别等诸多领域取得了突破性的进展。在物体识别、机器翻译、自动问答等多个单模态任务中,基于深度学习的方法在某些大规模数据集上取得了和人类相匹敌的性能。在现实世界中,拥有高级智能的人类面对更加复杂的环境时经常需要多模态信息的感知和推理,从而进行各种决策。近年来,基于视觉和语言的多模态任务引起研究者越来越多的注意,如图像字幕生成、视觉叙事、自动视觉问答等。不同于传统的图像标注任务,图像字幕生成和视觉叙事旨在于用一句话或者一段话来描述图像的主要内容,这同时需要对图片内容进行视觉理解以及生成与图片语义一致的描述。视觉问答旨在于让机器自动回答与图片内容相关的用自然语言描述的问题,其涉及多模态信息(即视觉图片和自然语言描述的问题)的输入,需要对图像内容进行更精细化的理解。自动视觉问答的关键在于视觉和自然语言的共同语义理解,以及视觉与语言之间的联合推理。注意力机制是实现多模态推理的一种有效方式,高层语义衔接了视觉和自然语言之间的语义信息。注意力机制在视觉问答中主要有三个方面的作用:首先,注意力机制能够根据具体提问的问题进行有效信息的定位和提取;其次,注意力机制能够将自然语言和视觉图片在语义上对齐,从而在更细粒度上实现推理;最后,注意力机制通过对注意力热图可视化从而增加模型的可解释型。高层语义在视觉问答中的作用也可以分为两个方面:一方面,从图像中生成的高层语义能够缩小视觉图像和自然语言的问题之间的语义鸿沟,从而能够在共同的语义空间中进行推理;另一方面,与传统图像特征相比,高层语义具有可读性和可解释性,因此为答案的推理和问答系统的错误诊断提供依据。然而现有的自动视觉问答模型通常存在以下两个问题:首先,自动视觉问答的问题具有多样性和复杂性,现有工作通常采用单一层次的图像表达,无法满足各种问题需要的信息;其次,现有的注意力模型对图像不同区域独立计算注意力权重,忽略了图像中物体之间上下文信息,无法回答需要关系推理的问题。基于这些问题,本文对自动视觉问答中的注意力机制进行深入研究,将注意力网络创新性运用于图像不同层次的表达上,进而根据提出的问题进行更有效的信息提取,理解和推理。本文的主要工作和创新点总结如下:基于多层次注意力网络的视觉问答 本文提出了基于多层次注意力网络的视觉问答模型。现有的基于注意力机制的视觉问答模型主要从低层次的视觉信息中推理答案,忽略了图像中高层语义的建模以及不同区域之间的空间关系。本文提出的多层次注意力网络对图像不同层次的信息进行筛选、融合及联合推理,通过语义注意力模块减少语义鸿沟同时通过视觉注意力机制进行更细粒度的空间推理。此外本文使用双向GRU网络对图像不同区域进行关系建模,从而编码区域的上下文信息。本文在两个最有挑战性的VQA数据集上取得了当时的最好结果。基于多源多层次注意力网络的视觉问答 本文提出了多源多层次注意力网络,解决了多层次注意力网络的两个不足之处:第一,多层次注意力网络只能提取视觉表达的不同层次的语义信息,而视觉问答中部分问题需要涉及知识推理;第二,在多层次注意力网络中,双向GRU只能对图像区域进行一维线性展开后再学习空间关系,这破坏了图像本身的二维结构。本文提出的多源多层次注意力网络有三次创新之处:首先,多源多层次注意力网络引入了外部知识库,同时使用来自视觉和知识的多源信息,使得视觉问答系统进行基于知识的推理。其次,本文提出2D-GRU的结构,对图像的上下左右两个维度四个方向进行关系建模,更符合图像的结构特征。最后,在两个最大的VQA数据集上,本文取得了比多层次注意力网络显著更好的结果。基于图注意力网络的视觉问答 本文提出了基于图注意力网络,进一步解决了多源多层次注意力网络的两个不足之处:第一,多源多层次注意力网络从最后一层卷积层抽取图像特征,每个区域感受野是均匀分割的固定大小的区域,不符合物体本身多尺度变化的特征;第二,多源多层次注意力网络对视觉特征按照注意力进行加权平均,丢失区域的位置信息。针对这两个不足之处,本文提出的图注意力网络,能够对物体之间的关系建立图结构,对图的节点和边分别进行注意力建模,然后通过图嵌入的方法,解决不同物体信息融合的问题。基于属性和字幕的可解释视觉问答 本文提出将传统端到端的视觉问答任务分解为两步,解释和推理,通过阐明这两步的中间结果尝试建造一个可解释的视觉问答系统。本文首先提取属性和描述性句子作为图片高层语义的解释,然后推理模块通过利用这些解释而不是图片本身推理答案。这样的分解有两个好处:第一,属性和字幕能够反映出系统从图像中提取了那些信息,因此为预测的答案提供了解释;第二,当预测的答案是错误的时候,这些中间结果能够对错误原因进行诊断,帮助识别错误是源于图像理解还是后续的推理部分。本文通过实验证明,这样的分解系统取得了和基准模型相当的性能,同时具有可解释性以及用更好质量的属性和字幕改进整个系统的能力。
其他文献
经济增长和货物贸易有着紧密的联系。在中国,GDP从1980年的人民币4545.6亿元增加到2006年的人民币209407亿元,货物贸易总额从1980年的378.2亿美元增加到2006年的17606.9亿美
文学与电影的百年匹配与折磨─—文学影像化的跨世纪回溯孙立峰一百年前,在法国巴黎迦夫埃昏暗的地下室,卢米艾尔兄弟摄制并且公映了世界第一部电影。从此,文学─—尤其是小说与
项目的后评价是技改项目生命周期中的一个不可缺少的关键环节,有助于了解该技改项目的运营状况,并能了解该技改项目的最终社会效益和经济效益,验证技改项目实施前进行的项目前期
<正>近日,中央电视台的"中国诗词大会"第二季圆满收官。这档以"赏中华诗词,寻文化基因,品生活之美"为宗旨的节目,力求通过对诗词知识的比拼及赏析,带动全民重温那些曾经学过
马克思主义人学思想是马克思从对人的人文关怀开始,随着对人类社会的深入研究而逐渐发展形成的一种科学的有关人的本质理论。一切自然科学的出发点和落脚点都以人的需要为核
近年来,藏族白马人祭祀舞蹈受到社会学者的广泛关注,成为研究藏族白马人文化的重要渠道。本文通过对藏族白马人的信仰和民俗进行观察和分析,结合相关文学、人类学,对藏族白马
将微信、微博两种社交媒体引入到高等职业技术院校专业建设微教学平台改革中,在微教学平台构建时,将职业素养能力训练模块,嵌入到专业素质、专业发展、专业课程、企业课程模
在当前日趋激烈的竞争环境下,在新知识、新技术不断刷新和改变着我们的工作、生活方式的情况下,企业该怎么做才能使自己立于不败之地?20世纪末,《财富》杂志曾预言21世纪最为
<正> 1.研究无轴承电动机的意义 一些精密数控机床、涡轮分子泵、小型发电机或高速飞轮储能等装备中需要用大功率的高速超高速电动机(以下简称为电机)来驱动。我们知道,电机
<正> 根据近年来的统计,国内较大城市设有700张床位的综合性医院,每年平均收治急性肾衰竭患者10人左右。慢性肾衰竭的发病率为每百万人口每年100人左右。急、慢性肾衰竭一旦