基于视频的人体行为识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yupeng198652
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视频的人体行为识别由于其涉及人工智能、模式识别、机器学习、图像处理、计算机视觉等学科,并在智能监控、人机交互、网络视频监管等领域具有广阔的应用前景,目前已经成为学术领域的研究热点之一。近几年随着深度学习技术的发展以及大规模人体行为数据集的发布,人体行为特征的表达方式逐渐从基于手工设计的特征转向基于深度学习的特征。基于深度学习的人体行为识别算法在识别准确率以及泛化能力上已经超越了手工设计的特征,成为人体行为识别领域主要的研究方向。此外,随着深度相机的发展,目前已经可以实时的获取人体骨骼结点的三维坐标,深度学习模型可以利用骨骼结点构建有效的行为特征,这为人体行为识别研究带来新的机会。  本文首先对人体行为识别发展现状进行了概述,阐明其研究的难点以及未来的趋势;然后,在第二章对深度学习的基本理论进行了研究学习;在前两部分工作基础上,本文针对不同的问题开展了具体的工作,详细情况如下:  (1)设计一种结合递归神经网络与深度卷积神经网络的端到端的深度学习模型。该模型首先利用深度卷积神经网络提取视频中单帧图片上的视觉特征,然后将提取到的视觉特征作为递归神经网络的输入,从而获取帧与帧间的时序信息。最终所提算法在公开的UCF101人体行为数据集上取得85.68%的准确率。  (2)实现基于三维卷积核的双通道模型。该模型使用空间流通道获取视频序列中每一帧图像的信息;使用时间流通道获取帧与帧间的时序信息。两个通道均是由三维卷积核构成的深度卷积神经网络,结构完全相同,但分别使用RGB图像和光流图像作为输入。最后,根据沈阳新松机器人自动化股份有限公司实际需求,以服务机器人的视角录制了人体行为数据集。该数据集包含打架、摔倒、扔、踢、捡起、站立六类行为,包含2592个样本。所提模型在该数据集上取得95.1%的识别准确率。  (3)利用人体骨骼结点构建行为特征,实现实时的人体行为识别。首先将Kinect提取的三维人体关节坐标数据进行预处理,用二维矩阵表达一段视频中所有人的关节坐标;然后,设计带有残差连接单元的一维卷积神经网络,一维卷积核在卷积过程中仅在时间维度上进行滑动,从而逐渐提取时间维度和空间维度的信息。最后,在目前最大的三维人体行为数据集NTU-RGBD上进行训练与测试,与同类型的Res-TCN模型对比,在几乎不影响准确率的前提下,将模型参数量减小了47%,极大降低了模型的复杂度,提高了模型效率。
其他文献
中国的高等教育系统中存在两类高等学校,即教育部直属高等学校及由地方政府管理的高等学校。伴随高等教育逐渐走向市场化,政府、高等学校和学生之间形成了各自的利益群体,使各方
本文是在国家自然科学基金项目“复杂体系计算模拟程序设计和相关的基础理论”的支持下完成的。计算机软硬件的飞速发展,已使得科学计算跻身于理论和实验中重要的一个领域,构成
无人直升机(Unmanned Helicopter)具有固定翼无人机所不具备的很多优势,它具有垂直起降、空中悬停、协调转弯、前飞、侧飞等多种飞行模态。这种独特的飞行性能决定了它的使用
表面贴装技术(SMT)作为新一代电子组装技术已经渗透到各个领域,其发展迅速,应用广泛。贴片设备是SMT生产线中最关键的设备,通常占到整条生产线投资的60%以上,高速、高精度、多功能是
伴随着网络技术和多媒体技术的飞速发展,信息隐藏技术被认为可以广泛地应用于版权保护,多媒体认证,数据跟踪与秘密通信等方面。在近十多年的研究中,针对不同的应用目的,学者们提出
形式概念分析是由德国Wille. R教授在1982年提出的,它基于形式背景来分析形式概念,是一种有效的知识获取和数据分析的工具,其核心是概念格。形式背景作为一种特殊的信息系统,
时间序列数据是一类重要的复杂数据对象,广泛存在于自然现象和社会经济等领域中,应用数据挖掘技术分析时间序列数据是一项具有现实意义的工作,数据挖掘技术应用于时间序列数据库
随着海陆空交通事业的发展,特别是空间运输事业的发展;人们不断地寻求一种完美的导航技术。GPS及INS导航技术也就应运而生了。但无论是GPS、INS还是其他导航技术都有存在不足之
随着网络结构、用户需求日益多样化、复杂化,各种各样网络技术应运而生。典型的两种网络技术是异步传输模式(Asynchronous Transfer Mode)技术和TCP/IP协议下的Internet技术。网
资源的合理利用与开发是未来可持续性发展的重要课题,随着信息技术的不断发展,越来越多的资源型企业(采矿业)和资源利用型企业(钢铁业)已从传统的生产方式转化为数字化生产方