基于深度注意力机制的视频中人体动作识别

来源 :国防科技大学 | 被引量 : 0次 | 上传用户：roc9055

【摘要】

：

视频中人体动作识别是计算机视觉领域内长期备受关注的课题,在视频监控、人机交互和视频理解等领域发挥着重要的作用,受到国内外学者的广泛关注。随着大数据时代的到来,视频

【作者】

：

杨浩东

【出处】

：

国防科技大学

【发表日期】

：

2004年期

【关键词】

：

人体动作识别注意力机制编解码框架 Attention-again模型时空注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视频中人体动作识别是计算机视觉领域内长期备受关注的课题,在视频监控、人机交互和视频理解等领域发挥着重要的作用,受到国内外学者的广泛关注。随着大数据时代的到来,视频数据的数量呈指数式增长。然而由于视频中人体动作的复杂性和多样性,如何有效地识别动作成为一项颇具挑战的研究课题。根据人体动作的表示和分类两大步骤,本文提出了基于深度编解码框架结合注意力机制的研究思路。本文应用深度学习技术,以卷积神经网络自动提取动作特征表示动作,利用深度循环网络分类动作。同时,本文建立集成模型,在学习的过程中完成整体优化,实现动作表示和动作识别的统一。具体地,本文的主要研究成果如下:(1)提出适应视频时域信息的Attention-again模型。大多数注意力机制的方法,都是关注空间信息,仅通过LSTM去对视频的序列信息进行建模。考虑到传统方法对时域的信息获取不完善性,本文受人们阅读习惯的启发提出了Attention-again模型。将相邻时刻的图像帧与当前图像帧相结合,利用LSTM长时间依赖的特性,使得底层LSTM能获取到一定的全局信息;在顶层LSTM识别过程中进行一定的指导。本文的方法在公开数据集UCF11,HMDB51和UCF101的RGB数据上取得了较好的效果。具体地,UCF11数据集上的准确率为91.2%,HMDB51数据集上的准确率为54.4%,UCF101数据集上的准确率为87.7%。(2)提出了基于双向层次结构的时空注意力机制改进相似动作识别。相似动作一直都是动作识别领域难以解决的问题,针对大部分工作对相似动作识别不准确,本文做出了模型上的改进。首先提出了动作由动作原子构成假设,在此基础上提出了时空范围内精选视频帧、聚焦感兴趣区域的时空注意力模型,采用双向双层的序列建模的网络结构。在动作表示部分,加入三维特征提高识别率。在复杂数据集HMDB51和UCF101上取得不错的效果。其中,HMDB51数据集上的准确率为71.9%,UCF101数据集上的准确率为94.8%。

其他文献

基于SINOVATION的风电轮毂铸造工艺CAD系统的开发

铸造工艺设计的成功与否影响着铸件的成品率、质量、生产成本等各个方面。传统的铸造工艺设计方案的确定大多依赖于生产实践经验,比较难以精确计算。检测工艺设计的成功与否

学位

风电轮毂球墨铸铁铸造工艺软件开发计算机辅助设计

利用TALEN技术敲除斑马鱼cd99l2基因以及突变体造血表型的初步鉴定

研究背景CD99 antigen-like 2(CD99L2)是一种高度糖基化的Ⅰ型跨膜蛋白,不属于任何已知的蛋白家族。CD99L2蛋白分布广泛,在人和小鼠多种器官都有高表达。血液血管系统主要表

学位

斑马鱼cd99l2突变体TALEN造血

基于堰流及筛分理论的自磨机格子板的设计研究

自磨机是一种应用于矿石中碎阶段的大型磨矿设备。由于其矿石处理能力强,工艺流程简单等特点,大量的大型选矿厂将自磨机投入到生产中。近年来自磨机技术发展迅猛,其大型化的

学位

格子板自磨机排矿量磨损量

井壁取心抗干扰通信系统设计与实现

现代工业社会的发展对石油的需求量越来越大。石油作为地球上的一种不可或缺资源,其开采效率得到人们越来越广泛的关注。在石油勘探过程中,岩心取样作为一种获得地下岩层的物

学位

井壁取心遥测传输电缆测井抗干扰OFDM技术自适应干扰抑制

基于深度特征的车辆检测与跟踪

智能交通系统作为一种先进的交通管理技术,越来越受到人们的重视,同时随着计算机硬件水平的提升,许多复杂算法所带来的实时计算困难的问题已逐渐突破。本文所研究的车辆检测

学位

智能交通目标检测卷积神经网络YOLO V3Deep-Sort

基于孪生网络的视觉跟踪算法的研究

视觉跟踪是计算机视觉领域的一个重要研究方向,现在已经广泛用于军事、医疗、机器人、智能交通等领域。近年来,深度学习技术获得了极大的突破,深度神经网络强大的学习能力为

学位

视觉跟踪孪生网络跨层卷积对比损失多域学习残差块

基于卷积神经网络的图像语义分割

全卷积神经网络(FCN)的图像语义分割算法不仅能够直接处理任意尺寸的图像,省去繁琐的中间步骤,实现端对端像素级分割,而且提高了分割的准确率。但是全卷积神经网络中的池化层

学位

全卷积神经网络图像语义分割跳跃连接空洞空间金字塔池化全连接条件随机场

基于超像素与四元数的彩色图像复制粘贴篡改检测研究

随着互联网信息技术的快速发展,数字图像的数量显著增长,同时对于数字图像的处理也变得越来越简便,使得各个领域内出现大量的伪造图像,因此,图像的真实性受到人们的严重质疑

学位

复制粘贴篡改检测超像素四元数形状特征特征点

ERT图像重建算法及图像质量评估

近年来,电阻层析成像技术(Electrical Resistance Tomography,ERT)是一项发展比较迅速的技术,具有低成本、无放射性、可视化和非入侵的特点,主要以电磁场的似稳场为理论基础,

学位

LSTM无参考图像质量评价信息熵全连接神经网络稀疏表示

基于BP神经网络的中子/伽马射线甄别方法研究

中子探测技术被广泛应用在材料勘探、爆炸物的安全检测、环境污染的放射性检测、航天航空、核工业等领域,中子探测技术的广泛应用致使中子探测器也得到了快速发展。但是常用

学位

中子探测技术中子和γ射线脉冲形状甄别BP神经网络算法

基于深度注意力机制的视频中人体动作识别

与本文相关的学术论文