论文部分内容阅读
多领域交叉学习趋势日益增强,趋向于实用化的研究日益增多。其中,最受学者关注的一项研究是在辅助医疗、辅助教育等领域存在巨大潜力的视觉场景理解技术。目前,对于视觉场景理解任务已经开展了大量研究,而基于深度学习的视觉场景理解模型是目前研究的重点。该模型引入机器翻译相关思想,并引入了编码-解码框架,它不仅改变了基于目标检测的传统模型,还将视觉场景理解任务转化为端到端的“翻译”任务;随后向视觉场景理解任务中引入机器翻译另一重要模型——注意力模型,该模型通过在不同时刻,对同一组特征图谱的不同区域进行重要程度打分,并使用打分结果的高低决定下一关注位置。但是在实际应用中系统或用户所要面对的对象和场景是变化的、不可预知的,而现有数据集纵使包含多种对象类别和应用场景也不能改变描述性能受限于数据集与语言模型的现状。若从扩充数据集入手解决这个问题不仅极为困难,而且也会带来过度的研究损耗。因此,为了提高视觉场景理解模型的泛化能力和鲁棒性,本文从多特征融合与多模型联合两种角度提出了两种视觉场景理解模型的改进方案。(1)针对传统的视觉场景理解模型在编码阶段使用最后一层卷积层特征编码上下文向量而引起的图像语义缺失,图像关注位置定位不准确等问题,提出了基于多注意力机制的视觉场景理解模型。该模型主要考虑了注意力机制在不同时刻对同一特征图谱的不同区域具有不同注意力的特性,将空间注意力模型和语义注意力模型引入视觉场景理解任务,并从隐藏层和特征通道两方面入手以提高对象定位准确度;另外,本模型借鉴目标检测中使用多层特征来提高模型性能的经验将多层特征融合技术加入到视觉场景理解模型中,并使用新生成的特征图谱编码上下文向量。实验结果表明,改进后的网络模型不仅解决了图像关注位置不准确的问题,还提高了描述准确度。(2)传统视觉场景理解模型在相继增加编码-解码框架、注意力机制后已取得突破性进展,但描述性能过分依赖于训练数据集和语言模型的问题依然没有解决。针对此问题,本文提出基于正则化与拷贝机制的视觉场景理解模型。该模型首先借鉴人们交流中往往会“拷贝”对方话语中的词汇或长短语来完成对话,因此在本模型中考虑增加一个称为拷贝机制的辅助网络来实现图像内容向描述结果的拷贝。另外,为了保证解码过程中图像信息的完整性引入正则化机制,该机制可以通过重构上一时刻的隐藏状态来激励当前隐层获得更完整的图像信息,并对LSTM网络起到正则作用。随后,通过在Flickr30K和MSCOCO数据集上的实验对该模型进行充分了验证,并证明该模型有效的解决了描述泛化能力不强等问题。