论文部分内容阅读
随着智能手机、平板电脑等数字设备的普及和存储技术的发展,日常生活中产生了许多图像,对于人来说理解这些图像是一件很简单的事情,但是对于机器来说,这些图像只是一些像素值,不带有任何意义,如何让机器来理解图像变得更加有价值。近些年来,随着目标检测和机器翻译的发展,图像描述生成任务取得了巨大的进展。图像描述生成通俗来讲可以将其看作为“看图说话”,该任务的模型输入为图片,输出为人类可以理解的自然语言。本文主要内容如下:首先,本文应用了近些年来取得巨大成功的注意力机制。注意力机制的核心思想是模仿人类的视觉注意,把该机制应用到图像描述中能使得模型在生成单词时自动筛选出对更关键的图像区域,提高生成句子的准确性。然后,基于局部特征的图像描述模型仅使用了图像局部特征,可能存在信息丢失,针对该问题,本文提出了一个全局特征和局部特征相结合的图像描述模型。该模型在编码器中利用预先训练好的卷积神经网络模型提取图像的全局特征和局部特征,并将这两种不同尺度的模型融合在一起,形成对图像编码的结果。然后由LSTM组成的自然语言模型进行解码,把提取到图像特征翻译为自然语言。该模型可以充分利用图像的两种不同尺度的图像特征,生成的自然语言更加准确。最后,全局特征和局部特征相结合的图像描述模型强制要求全局特征对每个单词的生成都有效,存在一定的不合理性,针对该问题,本文提出一种自适应注意力机制,并且把该机制应用到图像描述模型中,该模型同样采用了编码器-解码器架构。自适应注意力机制可以让模型生成图像描述时自动选择关注图像的局部特征还是关注图像的全局特征。本文模型在Microsoft COCO数据集上进行训练,评估。在BLEU,ROUGE-l和CIDEr等评价指标上,比较了局部特征的模型、结合全局特征和局部特征的模型和自适应注意力机制的模型的性能表现,实现结果证明,自适应注意力机制模型在上述评价指标上均得到最高分,结合全局特征和局部特征的模型得分次之,基于局部特征的模型得分最低。