论文部分内容阅读
图像描述是一种涵盖机器视觉和自然语言处理的多模态人工智能技术,能够使得机器生成描述当前图像语义内容的句子,在智慧交通、智慧城市的建设中具有广泛的应用价值。传统基于模板、基于检索的方法使得图像产生的描述句子不够灵活,局限性十分明显。基于深度学习的卷积神经网络和循环神经网络搭建的编码器—解码器框架为解决图像描述任务提供了完整的解决方案,越来越受到科研工作者的青睐。但是现有的方法还存在提取图像关键信息时精度不高、训练速度缓慢、模型产生的结果在评价指标上分数不高的情况。针对以上问题,本文提出了改进优化模型的方法和策略。本文研究内容和创新工作包括:1)提出了一种基于Inception-ResNet-V2以及卷积注意力机制的图像描述生成方法。在融合图像注意力机制的编码-解码图像描述模型框架中,为了提高模型对图像特征提取的能力,使得模型在生成语言描述时主体更加明确,本文使用精度更高的Inception-ResNet-V2作为特征提取网络。为了解决解码器训练速度缓慢的问题,本文在传统图像注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数数量。2)提出了一种基于残差连接以及语言注意力机制的图像描述生成方法。相关研究结果表明,在解码部分使用双层长短期记忆网络(LSTM)搭载注意力机制能够增强语言模型生成描述图像句子的能力。但双层LSTM的模型参数量大,层次深,容易出现梯度消失的现象。为了解决这一问题,本文在双层LSTM之间使用残差连接来增加语言单词向量的相关性。在特征提取阶段,通过引入目标检测网络来提取图像特征,使得模型从一开始就注意到图像关键的区域。不仅如此,本文还设计了基于语言特征的注意力机制,提升了语言模型的性能。最后,本文使用强化学习策略来进一步优化模型,在语言生成模型中通过贪心算法得到句子在CIDEr评价指标上的得分为奖励对上述两种模型进行优化。综上所述,本文对基于深度学习的图像描述算法进行了研究和改进。实验结果表明,本文提出的图像描述算法相对于传统的方法,能够有效地提升图像描述算法的性能,更加准确地生成图像的描述文本。