论文部分内容阅读
随着大数据多媒体时代的到来,互联网、便携设备日益普及,图像作为信息的重要载体,出现在我们身边的每个角落。如何利用计算机充分获取并理解图像信息,一直以来吸引学者们的广泛关注。近年来,在人工智能、深度学习理论蓬勃发展的大背景下,计算机视觉的经典研究问题,例如图像分类、目标检测等,均取得了快速发展和巨大成功;而在自然语言处理方面,机器翻译、人机对话的相关技术也得到了显著提升。受此启发,学者们逐渐将目光转向一个更具挑战性的任务:采用自然语言的形式表现图像内容的视觉描述任务。按照输入和输出形式划分,视觉描述的研究内容包含视觉问答和图像标注两个方面。视觉问答根据图像和给定的问题推理出对应的答案;而图像标注则研究如何生成给定图像的句子描述。很显然,视觉问答是一种被动式的推理任务,需要用户提供文本信息;而图像标注则是以尽可能挖掘图像视觉内容为目的的一种主动式图像描述模型。这两个研究方向均涉及图像、文字两个不同的数据分布空间。由于二者存在巨大的语义鸿沟,难以建立直接的映射关系,而深度模型强大的特征表达能力,成为解决该难题的一个重要突破口。无论是图像还是文本,其表达的语义是多模态呈现的。图像的语义信息包括视觉元素、元素的状态属性以及他们之间的关系;而文本则是包含字、词、短语等多种层次的语义表达。通过对这些不同模态的特征进行提取、建模,我们便可以借助深度模型推理挖掘出更丰富的图像信息。随着深度学习理论在多模态任务中发挥越来越显著的作用,视觉描述上的研究范围逐渐扩大,研究层次也越来越深入。近年来,基于深度学习理论的方法将视觉问答和图像标注的研究不断推上新的高度。而与此同时,两种视觉描述任务的难点也更加显而易见。在视觉问答方面,由于模型需要对不同类型的问题进行处理,而计数类问题的处理一直是一个具有挑战性的任务;图像标注方面,最简单的单句形式已远远不能满足复杂场景的要求,研究者们将更多的研究精力放在以段落标注为代表的多句描述上。而相对于前者,段落描述任务显然更具有挑战性。本文采用深度学习模型,对视觉描述的两大任务展开了深入研究。首先,本文分析了视觉问答模型无法准确回答计数类问题的主要原因,并提出了用于取代传统视觉问答模型中对于计数类问题处理方式的新策略。然后,在图像标注方面,本文以内容更丰富、形式更简洁的段落型文本为目标,进一步提出了高性能段落标注模型。具体的研究内容分为以下四个部分:第一,提出了一种基于区域检测的问答计数模型。传统计数方法只能计算特定目标物体的数量,无法参考用户的提问内容。而最近兴起的视觉问答任务则是将包括计数问题在内的所有类型问题当作回归问题来处理。为了解决以上两种思路对于处理问答计数任务的不足,我们提出了一种基于检测+判别的框架来确定用户所问目标的数量。在检测阶段,我们提取问题的序列化特征,并与图像特征融合来实现目标框位置的预测;在判别阶段,我们对问题纹理的多模态特征建模,与被检测区域进行匹配,并最后通过一个回归网络计算出每个区域所包含的目标数量。与传统的计数模型相比,我们融合了问题信息,可以对符合问题描述的物体精确计数;相对于广义的视觉问答模型,我们可以得出更精确的计数结果。第二,提出了一种基于生成对抗网络的问答计数模型。该模型采用定位+回归的框架策略,通过一个融合问题特征的生成对抗网络实现目标位置的确定。为了从不同粒度挖掘问题语义信息,我们在生成和判别阶段分别使用循环网络和卷积网络提取问题特征,并将这种多模态的问题文本表达与图像特征相融合,用于目标位置的预测。目标的最后数量是通过对所有被检测区域的回归结果加和求得。实验结果表明,生成对抗网络的引入获得了更好的目标定位效果,并有效的去除了冗余区域,从而改善了目标数量的预测精度。第三,提出了一种基于关系预测的图像段落标注模型。传统的图像标注模型通常是使用一个卷积网络提取图像特征,使用一个循环网络生成句子。这种模型架构可以对简单的图像场景生成描述,而无法对复杂的视觉场景进行精细化表述。解决该问题的一种思路是对整张图片的关键区域进行检测,并生成区域级的段落型文字描述。而这种方法无法有效的复现视觉元素之间的关系,导致视觉信息的大量丢失。针对该问题,本文提出了一种基于关系预测的图像段落标注网络。与传统的段落标注模型相比,本文显式的预测了视觉元素之间可能存在的关系语义,并通过注意力机制,将图像特征和关系语义特征进行融合,并使用融合后的特征生成段落型描述文字。实验结果表明我们通过融合视觉关系语义可以获得更精确、更丰富的段落内容,相对于传统的段落描述模型,我们所提出的方法包含了更多的视觉关系信息。第四,提出了一种基于生成对抗网络的段落标注方法。经过证明,提高关键区域和视觉关系的预测精度,可以提高段落标注的效果。目前生成图像段落标注的网络均沿用目标检测模型中的区域提名网络确定图像的关键区域,并根据对应关键区域的特征生成文本。这种机制决定了区域定位的准确度会直接对文本生成的效果产生影响。在实验中我们发现,与目标检测模型的最终目的不同,在段落标注模型中,关键区域包含的视觉关系越多,对应生成的描述性文字质量越好。以此为出发点,我们设计了一个生成对抗网络,用于产生包含更多视觉关系的关键区域。我们将产生关键区域的模块设计成生成器网络的结构,判别器网络用于生成器网络参数的优化。生成器和判别器的交替优化可以使关键区域包含更多的视觉元素以及视觉关系信息。实验结果表明,本文设计的这种基于生成对抗模型的区域提名网络可以有效提高视觉关系的预测精度,并改善了段落标注的最终生成效果。