论文部分内容阅读
随着大数据、高性能计算工具、深度学习技术的相继出现,人工智能迎来了第三次发展热潮。深度学习模型在计算机视觉、自然语言处理、语音识别等诸多领域取得了突破性的进展。在物体识别、机器翻译、自动问答等多个单模态任务中,基于深度学习的方法在某些大规模数据集上取得了和人类相匹敌的性能。在现实世界中,拥有高级智能的人类面对更加复杂的环境时经常需要多模态信息的感知和推理,从而进行各种决策。近年来,基于视觉和语言的多模态任务引起研究者越来越多的注意,如图像字幕生成、视觉叙事、自动视觉问答等。不同于传统的图像标注任务,图像字幕生成和视觉叙事旨在于用一句话或者一段话来描述图像的主要内容,这同时需要对图片内容进行视觉理解以及生成与图片语义一致的描述。视觉问答旨在于让机器自动回答与图片内容相关的用自然语言描述的问题,其涉及多模态信息(即视觉图片和自然语言描述的问题)的输入,需要对图像内容进行更精细化的理解。自动视觉问答的关键在于视觉和自然语言的共同语义理解,以及视觉与语言之间的联合推理。注意力机制是实现多模态推理的一种有效方式,高层语义衔接了视觉和自然语言之间的语义信息。注意力机制在视觉问答中主要有三个方面的作用:首先,注意力机制能够根据具体提问的问题进行有效信息的定位和提取;其次,注意力机制能够将自然语言和视觉图片在语义上对齐,从而在更细粒度上实现推理;最后,注意力机制通过对注意力热图可视化从而增加模型的可解释型。高层语义在视觉问答中的作用也可以分为两个方面:一方面,从图像中生成的高层语义能够缩小视觉图像和自然语言的问题之间的语义鸿沟,从而能够在共同的语义空间中进行推理;另一方面,与传统图像特征相比,高层语义具有可读性和可解释性,因此为答案的推理和问答系统的错误诊断提供依据。然而现有的自动视觉问答模型通常存在以下两个问题:首先,自动视觉问答的问题具有多样性和复杂性,现有工作通常采用单一层次的图像表达,无法满足各种问题需要的信息;其次,现有的注意力模型对图像不同区域独立计算注意力权重,忽略了图像中物体之间上下文信息,无法回答需要关系推理的问题。基于这些问题,本文对自动视觉问答中的注意力机制进行深入研究,将注意力网络创新性运用于图像不同层次的表达上,进而根据提出的问题进行更有效的信息提取,理解和推理。本文的主要工作和创新点总结如下:基于多层次注意力网络的视觉问答 本文提出了基于多层次注意力网络的视觉问答模型。现有的基于注意力机制的视觉问答模型主要从低层次的视觉信息中推理答案,忽略了图像中高层语义的建模以及不同区域之间的空间关系。本文提出的多层次注意力网络对图像不同层次的信息进行筛选、融合及联合推理,通过语义注意力模块减少语义鸿沟同时通过视觉注意力机制进行更细粒度的空间推理。此外本文使用双向GRU网络对图像不同区域进行关系建模,从而编码区域的上下文信息。本文在两个最有挑战性的VQA数据集上取得了当时的最好结果。基于多源多层次注意力网络的视觉问答 本文提出了多源多层次注意力网络,解决了多层次注意力网络的两个不足之处:第一,多层次注意力网络只能提取视觉表达的不同层次的语义信息,而视觉问答中部分问题需要涉及知识推理;第二,在多层次注意力网络中,双向GRU只能对图像区域进行一维线性展开后再学习空间关系,这破坏了图像本身的二维结构。本文提出的多源多层次注意力网络有三次创新之处:首先,多源多层次注意力网络引入了外部知识库,同时使用来自视觉和知识的多源信息,使得视觉问答系统进行基于知识的推理。其次,本文提出2D-GRU的结构,对图像的上下左右两个维度四个方向进行关系建模,更符合图像的结构特征。最后,在两个最大的VQA数据集上,本文取得了比多层次注意力网络显著更好的结果。基于图注意力网络的视觉问答 本文提出了基于图注意力网络,进一步解决了多源多层次注意力网络的两个不足之处:第一,多源多层次注意力网络从最后一层卷积层抽取图像特征,每个区域感受野是均匀分割的固定大小的区域,不符合物体本身多尺度变化的特征;第二,多源多层次注意力网络对视觉特征按照注意力进行加权平均,丢失区域的位置信息。针对这两个不足之处,本文提出的图注意力网络,能够对物体之间的关系建立图结构,对图的节点和边分别进行注意力建模,然后通过图嵌入的方法,解决不同物体信息融合的问题。基于属性和字幕的可解释视觉问答 本文提出将传统端到端的视觉问答任务分解为两步,解释和推理,通过阐明这两步的中间结果尝试建造一个可解释的视觉问答系统。本文首先提取属性和描述性句子作为图片高层语义的解释,然后推理模块通过利用这些解释而不是图片本身推理答案。这样的分解有两个好处:第一,属性和字幕能够反映出系统从图像中提取了那些信息,因此为预测的答案提供了解释;第二,当预测的答案是错误的时候,这些中间结果能够对错误原因进行诊断,帮助识别错误是源于图像理解还是后续的推理部分。本文通过实验证明,这样的分解系统取得了和基准模型相当的性能,同时具有可解释性以及用更好质量的属性和字幕改进整个系统的能力。