论文部分内容阅读
基于视频的人体行为识别由于其涉及人工智能、模式识别、机器学习、图像处理、计算机视觉等学科,并在智能监控、人机交互、网络视频监管等领域具有广阔的应用前景,目前已经成为学术领域的研究热点之一。近几年随着深度学习技术的发展以及大规模人体行为数据集的发布,人体行为特征的表达方式逐渐从基于手工设计的特征转向基于深度学习的特征。基于深度学习的人体行为识别算法在识别准确率以及泛化能力上已经超越了手工设计的特征,成为人体行为识别领域主要的研究方向。此外,随着深度相机的发展,目前已经可以实时的获取人体骨骼结点的三维坐标,深度学习模型可以利用骨骼结点构建有效的行为特征,这为人体行为识别研究带来新的机会。 本文首先对人体行为识别发展现状进行了概述,阐明其研究的难点以及未来的趋势;然后,在第二章对深度学习的基本理论进行了研究学习;在前两部分工作基础上,本文针对不同的问题开展了具体的工作,详细情况如下: (1)设计一种结合递归神经网络与深度卷积神经网络的端到端的深度学习模型。该模型首先利用深度卷积神经网络提取视频中单帧图片上的视觉特征,然后将提取到的视觉特征作为递归神经网络的输入,从而获取帧与帧间的时序信息。最终所提算法在公开的UCF101人体行为数据集上取得85.68%的准确率。 (2)实现基于三维卷积核的双通道模型。该模型使用空间流通道获取视频序列中每一帧图像的信息;使用时间流通道获取帧与帧间的时序信息。两个通道均是由三维卷积核构成的深度卷积神经网络,结构完全相同,但分别使用RGB图像和光流图像作为输入。最后,根据沈阳新松机器人自动化股份有限公司实际需求,以服务机器人的视角录制了人体行为数据集。该数据集包含打架、摔倒、扔、踢、捡起、站立六类行为,包含2592个样本。所提模型在该数据集上取得95.1%的识别准确率。 (3)利用人体骨骼结点构建行为特征,实现实时的人体行为识别。首先将Kinect提取的三维人体关节坐标数据进行预处理,用二维矩阵表达一段视频中所有人的关节坐标;然后,设计带有残差连接单元的一维卷积神经网络,一维卷积核在卷积过程中仅在时间维度上进行滑动,从而逐渐提取时间维度和空间维度的信息。最后,在目前最大的三维人体行为数据集NTU-RGBD上进行训练与测试,与同类型的Res-TCN模型对比,在几乎不影响准确率的前提下,将模型参数量减小了47%,极大降低了模型的复杂度,提高了模型效率。