论文部分内容阅读
图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生成、基于交织层次网络的图像评论生成。主要的研究成果总结如下:(1)针对当前图像字幕生成方法从局部区域特征集中提取视觉信息时,容易受到干扰的问题,提出了一种基于全局注意力机制的字幕生成方法。该方法首先对图像局部区域在字幕文本中被提及的概率进行预测,作为全局信息,然后在每个单词生成时,将其融入到视觉信息的提取过程中,旨在能够将更多的注意力放到当前最相关的局部区域上,即通过赋予这些区域对应的向量特征更高的权重,来为当前单词的生成提供更加准确的视觉信息,从而生成更加高质量的字幕文本。(2)针对当前绝大多数图像字幕生成方法从场景图中提取视觉信息时,往往忽略了图中结点种类与字幕单词词性之间内在联系的不足,提出了一种基于词性先验的字幕生成方法。该方法在每个字幕单词生成时,预先对单词的词性进行预测,作为该词的词性先验,然后利用其来为不同种类的结点赋予不同的权重,旨在生成某种词性的单词时,将注意力更多地放在其所对应种类的结点上,如在生成形容词词性的单词时,将把更多的注意力放在图中的属性结点上,而在生成名词词性的单词时,把更多的注意力放在图中的物体结点上,利用这种方法来提取更加准确的视觉信息,提高字幕文本生成的质量。(3)针对当前通常分离地对字幕生成与图像生成进行研究,忽略了两者之间的对偶性质的现状,提出了一种基于对偶学习的图像字幕生成方法。该方法是基于字幕生成与图像生成可以形成一个闭环来提供信息反馈的事实进行构建,即每个模块的输出都能作为对方模块的输入。利用对偶模块为当前生成的字幕或者图像来进行反馈奖励的计算,再进一步使用该奖励来指导模型进行强化学习训练,从而生成更高质量的字幕文本和图像。本文研究了两种不同模式的对偶学习方法,即单对偶学习方法与联合对偶学习方法,这两种方法均能提升图像字幕生成的性能。(4)针对当前字幕生成模型生成的序列文本彼此之间缺乏关联,不能形成一个完整故事段落的问题,提出了一种基于层次主题网络的故事生成方法。该方法的主要思想是预先为段落中每一个文本进行主题规划,用于指导故事生成模块生成特定主题的文本,从而让序列文本在主题层面上保持连贯,形成一个完整的故事。实验结果表明,利用主题来关联各个序列中的文本,生成的故事文本之间具有良好的连贯性。此外,还提出了一种新的序列文本生成的强化学习方法,用于提出的故事生成模型的训练。(5)针对当前绝大多数图像字幕生成模型只能给出描述性文本的现状,提出了一种新的图像字幕生成的应用任务,即图像评论。相较于经典的字幕生成,该任务旨在生成具有社交吸引力的对话文本,能够让聊天机器人与用户在图像-文本的人机对话中建立长期的、情感上的联系,最大可能地吸引用户的注意力,从而更加积极地参与到聊天中。本工作搜集了一个用于该任务的数据集,以及提出了一个交织的层次神经网络,其可以在情感模式和事实模式之间交织变换,从而生成具有吸引力的图像评论文本。