论文部分内容阅读
随着人工智能领域的迅猛发展,人们的研究方向已经不仅仅局限于某个单独的领域,而是呈现出一种多学科、多方向相互交叉的发展态势,比如图片问答、视频问答等等,它们都是将图像处理与自然语言处理相结合的产物,特别是图片问答在这几年已经得到了学术界的广泛关注,然而作为图片问答的延伸,视频问答的研究则略显不足,其主要原因如下:第一,因为视频的三维特性导致视频特征具有更加复杂且丰富的信息描述,所以视频特征提取困难;第二,视频特征和问题特征属于不同模态下的特征,它们之间很难进行有效的交互;第三,模型在进行最后答案预测的时候,需要考虑问题的全局语义特征,但是传统的语义特征提取模型时间复杂度往往都很高,如何进一步降低特征提取的时间复杂度成为了又一大难题。为了解决上述问题,本文结合图像处理和自然语言处理等相关领域的知识,提出了以下解决办法。(1)特征提取:本文从静态特征和动态特征这两个方面对视频的特征进行了有效的提取。针对之前已有模型使用VGG提取静态特征和C3D提取动态特征的不足,本文使用全新的组合方式,使用Faster R-CNN对视频的静态特征进行提取,使用P3D对视频的动态特征进行提取,然后对提取的视频特征使用多头自注意力模块进行计算,使得模型可以捕获视频特征中不同维度下的序列依赖关系。(2)视频特征与问题特征之间的交互:为了让模型能够更好的理解问题特征以及视频特征,本文提出了一种多阶段双向注意力存储单元,该单元主要包括两种注意力机制:第一种是基于字粒度的注意力机制,通过该机制不仅加强了问题中每个字对于答案预测所产生的影响,同时模型会以问题中的每个字为导向,从视频双通道特征中选取最相关的特征,从而极大的减少了计算复杂度。第二种是基于时序的双向注意力机制,通过该模块可以完成当前时间步下问题特征和视频特征之间的双向注意力机制的计算,实现多模态特征下的信息交互。(3)对于语义特征提取模型的优化:本文结合已有的门限卷积网络,提出一种双向的门限卷积网络。双向门限卷积网络和传统的循环神经网络相比,它可以在保证模型准确率的前提下,进一步减少训练所需的时间复杂度。最后,本文提出的模型在ZJB和MSVD-QA两个数据集上的实验结果均超过了大量的基线模型,证明了模型的有效性。