基于深度注意力机制的视频中人体动作识别

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:roc9055
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频中人体动作识别是计算机视觉领域内长期备受关注的课题,在视频监控、人机交互和视频理解等领域发挥着重要的作用,受到国内外学者的广泛关注。随着大数据时代的到来,视频数据的数量呈指数式增长。然而由于视频中人体动作的复杂性和多样性,如何有效地识别动作成为一项颇具挑战的研究课题。根据人体动作的表示和分类两大步骤,本文提出了基于深度编解码框架结合注意力机制的研究思路。本文应用深度学习技术,以卷积神经网络自动提取动作特征表示动作,利用深度循环网络分类动作。同时,本文建立集成模型,在学习的过程中完成整体优化,实现动作表示和动作识别的统一。具体地,本文的主要研究成果如下:(1)提出适应视频时域信息的Attention-again模型。大多数注意力机制的方法,都是关注空间信息,仅通过LSTM去对视频的序列信息进行建模。考虑到传统方法对时域的信息获取不完善性,本文受人们阅读习惯的启发提出了Attention-again模型。将相邻时刻的图像帧与当前图像帧相结合,利用LSTM长时间依赖的特性,使得底层LSTM能获取到一定的全局信息;在顶层LSTM识别过程中进行一定的指导。本文的方法在公开数据集UCF11,HMDB51和UCF101的RGB数据上取得了较好的效果。具体地,UCF11数据集上的准确率为91.2%,HMDB51数据集上的准确率为54.4%,UCF101数据集上的准确率为87.7%。(2)提出了基于双向层次结构的时空注意力机制改进相似动作识别。相似动作一直都是动作识别领域难以解决的问题,针对大部分工作对相似动作识别不准确,本文做出了模型上的改进。首先提出了动作由动作原子构成假设,在此基础上提出了时空范围内精选视频帧、聚焦感兴趣区域的时空注意力模型,采用双向双层的序列建模的网络结构。在动作表示部分,加入三维特征提高识别率。在复杂数据集HMDB51和UCF101上取得不错的效果。其中,HMDB51数据集上的准确率为71.9%,UCF101数据集上的准确率为94.8%。
其他文献
铸造工艺设计的成功与否影响着铸件的成品率、质量、生产成本等各个方面。传统的铸造工艺设计方案的确定大多依赖于生产实践经验,比较难以精确计算。检测工艺设计的成功与否
研究背景CD99 antigen-like 2(CD99L2)是一种高度糖基化的Ⅰ型跨膜蛋白,不属于任何已知的蛋白家族。CD99L2蛋白分布广泛,在人和小鼠多种器官都有高表达。血液血管系统主要表
自磨机是一种应用于矿石中碎阶段的大型磨矿设备。由于其矿石处理能力强,工艺流程简单等特点,大量的大型选矿厂将自磨机投入到生产中。近年来自磨机技术发展迅猛,其大型化的
现代工业社会的发展对石油的需求量越来越大。石油作为地球上的一种不可或缺资源,其开采效率得到人们越来越广泛的关注。在石油勘探过程中,岩心取样作为一种获得地下岩层的物
智能交通系统作为一种先进的交通管理技术,越来越受到人们的重视,同时随着计算机硬件水平的提升,许多复杂算法所带来的实时计算困难的问题已逐渐突破。本文所研究的车辆检测
视觉跟踪是计算机视觉领域的一个重要研究方向,现在已经广泛用于军事、医疗、机器人、智能交通等领域。近年来,深度学习技术获得了极大的突破,深度神经网络强大的学习能力为
全卷积神经网络(FCN)的图像语义分割算法不仅能够直接处理任意尺寸的图像,省去繁琐的中间步骤,实现端对端像素级分割,而且提高了分割的准确率。但是全卷积神经网络中的池化层
随着互联网信息技术的快速发展,数字图像的数量显著增长,同时对于数字图像的处理也变得越来越简便,使得各个领域内出现大量的伪造图像,因此,图像的真实性受到人们的严重质疑
近年来,电阻层析成像技术(Electrical Resistance Tomography,ERT)是一项发展比较迅速的技术,具有低成本、无放射性、可视化和非入侵的特点,主要以电磁场的似稳场为理论基础,
中子探测技术被广泛应用在材料勘探、爆炸物的安全检测、环境污染的放射性检测、航天航空、核工业等领域,中子探测技术的广泛应用致使中子探测器也得到了快速发展。但是常用