论文部分内容阅读
作为计算机视觉领域的一个基础问题,人体动作识别旨在通过算法让机器对人体动作视频实现语义上的理解和分析。基于人体动作识别的潜在应用包括了智能监控、视频内容分析以及人机交互、智能家居等多个领域。正是这样广泛的应用场景和潜在的应用价值,在计算机视觉领域,大量的科研工作和研究课题围绕人体动作识别展开。然而,人体动作识别又是一个非常有挑战性的研究课题,存在诸多难点。在动作视频中,往往存在着背景复杂、人体遮挡、摄像头移动与缩放等问题。即使在带有深度信息的动作视频中,背景噪声、人体骨架检测的漂移,以及同一动作类别下由于动作类别的语义范围大而造成的类内差异较高的问题仍然存在。针对这些问题,本文从人体动作视频的表达出发,通过对人体动作视频数据的底层特征提取、中层属性挖掘以及利用深度学习模型进行特征学习的研究,探究视频中人体动作的合理有效的表达,并最终利用机器学习模型进行人体动作分类识别。本文的研究内容主要集中在对动作视频的特征表达和属性挖掘上,分别从底层特征表达、动作属性挖掘以及多特征融合的三个角度来探究人体动作视频的有效表达在视频动作分类上的作用。本文的主要工作和创新之处可以总结为以下几点:(1)针对带有深度信息的人体骨架数据,设计了合理的底层特征表达方式,并采用了马尔可夫随机场模型结合骨架序列本身的空间约束性和时间一致性,对特征空间进行编码,抑制了特征空间因为噪声数据存在的类内差异过大和类间区分性不够的问题。同时针对应用场景的特性,改进了多示例学习模型,提出了基于模式的多示例学习模型,学习各动作类别中具有区分性的骨架运动,用于低延时识别系统中每帧骨架与各动作类别相关程度的衡量。(2)针对带有深度信息的人体骨架的数据,改进并完备了底层人体骨架特征,并设计出有效地属性挖掘方法,尽可能减少底层特征到高层语义之间的鸿沟。同时完全采用数据驱动的方式挖掘属性特征,在实现有效可靠的人体骨架动作识别系统的同时,提出自动生长的属性空间模型,能够在识别过程中,实现属性空间的扩展,探究可扩展的人体动作识别系统的可能性。(3)针对传统的RGB视频数据,在应用于图像分类的卷积神经网络的基础上,通过稠密轨迹对视频中具有运动主体区域检测并进行跟踪,并利用卷积神经网络对提取运动主体的外观特征,同时沿着稠密轨迹的邻域,提取相应的局部运动特征。采用了AdaBoost算法,实现多特征融合有效地表达动作视频,讨论其在动作视频分类上的性能。总而言之,本文针对基于视频的人体动作识别问题,从视频的特征设计和提取以及动作属性的挖掘等多个角度来对视频数据进行表达,同时涉及到带有深度信息的人体骨架序列的动作分类和不带有深度信息的传统RGB空间下的视频数据中的动作分类。针对不同的应用场景,考虑了不同侧重点的解决方案。在基于人体骨架的动作分类上,更多地考虑动作分类系统的低延时性和可扩展性;在针对传统视频数据的动作识别上,本文更侧重于从模型的理论方法上寻求新的解决方案。三个方面的工作都做了充分的调研和实验验证,从而证明提出方法的有效性,也对下一步的研究方法给予启示和指导。