论文部分内容阅读
视频中人体动作识别是计算机视觉领域内长期备受关注的课题,在视频监控、人机交互和视频理解等领域发挥着重要的作用,受到国内外学者的广泛关注。随着大数据时代的到来,视频数据的数量呈指数式增长。然而由于视频中人体动作的复杂性和多样性,如何有效地识别动作成为一项颇具挑战的研究课题。根据人体动作的表示和分类两大步骤,本文提出了基于深度编解码框架结合注意力机制的研究思路。本文应用深度学习技术,以卷积神经网络自动提取动作特征表示动作,利用深度循环网络分类动作。同时,本文建立集成模型,在学习的过程中完成整体优化,实现动作表示和动作识别的统一。具体地,本文的主要研究成果如下:(1)提出适应视频时域信息的Attention-again模型。大多数注意力机制的方法,都是关注空间信息,仅通过LSTM去对视频的序列信息进行建模。考虑到传统方法对时域的信息获取不完善性,本文受人们阅读习惯的启发提出了Attention-again模型。将相邻时刻的图像帧与当前图像帧相结合,利用LSTM长时间依赖的特性,使得底层LSTM能获取到一定的全局信息;在顶层LSTM识别过程中进行一定的指导。本文的方法在公开数据集UCF11,HMDB51和UCF101的RGB数据上取得了较好的效果。具体地,UCF11数据集上的准确率为91.2%,HMDB51数据集上的准确率为54.4%,UCF101数据集上的准确率为87.7%。(2)提出了基于双向层次结构的时空注意力机制改进相似动作识别。相似动作一直都是动作识别领域难以解决的问题,针对大部分工作对相似动作识别不准确,本文做出了模型上的改进。首先提出了动作由动作原子构成假设,在此基础上提出了时空范围内精选视频帧、聚焦感兴趣区域的时空注意力模型,采用双向双层的序列建模的网络结构。在动作表示部分,加入三维特征提高识别率。在复杂数据集HMDB51和UCF101上取得不错的效果。其中,HMDB51数据集上的准确率为71.9%,UCF101数据集上的准确率为94.8%。