论文部分内容阅读
人体行为识别作为近几年来备受关注的一个研究方向,越来越多的研究人员致力于该方向的研究。然而,人体行为识别并不是一个简单的任务,人行为的多样性以及光照、遮挡等环境因素都增加了该研究方向的困难程度。随着21世纪的到来,人类的科技水平和生产能力都取得了极速的飞跃,尤其是计算机技术、传感器、多媒体等领域都发生了翻天覆地的变化。行为识别常用的RGB摄像头、深度摄像头、范围传感器、可穿戴加速度传感器等硬件设备的出现也使得行为识别这项技术逐渐变成现实。由于深度摄像头所展现出来的优越性,本文针对基于深度数据的人体行为识别算法展开研究。本文的主要创新点如下:(1)传统的深度动作图(Depth Motion Map,简称DMM)将整个动作序列压缩到一张二维图像上,损失了大量的时间信息。于是,本文提出了一种基于模糊分片的特征提取算法。该算法首先将深度动作图的提取方式改进为分片的模式,同时受到HOG特征提取算法的启发,即各个区块中可以采用重叠(overlap)的方式来防止某一个连续区域被分割的思想,本文又进一步对视频序列的划分采用模糊分片的策略,各个分片之间不存在特定的边界,相邻分片中的视频帧可以共享。这使得本文的算法能够保存连续的时间信息,计算得到的特征具有更好的说服力。(2)针对模糊分片之间能量不均匀的问题,本文又进一步提出了一种基于动作能量(motion energy)的模糊分片方法。该方法借鉴了前文的分片策略,但两者最大的区别在于之前的分片策略基于具体视频帧,而本方法则根据帧之间的能量来进行分片,分片后的序列能量更为均匀。因此,这样得到的模糊边界子序列具有自适应的能力,它能根据不同的能量分布来自动划分序列,本文称这种模糊边界子序列为自适应模糊边界子序列。(3)基于动作能量的模糊分片方法虽然有着不错的表现,但是在这种单尺度分片策略中目标对象的运动速度等细节差异依然会丢失,尤其是复杂动作。为了解决这个问题,本文提出了一种基于自适应模糊边界子序列的人体行为识别方法。该算法首先提取自适应模糊边界子序列,然后采用多时间尺度深度动作图(Multi-temporal DMM)来捕获速度等细节信息,接着使用LBP特征和Fisher向量来描述这些深度动作图,得到最终的特征向量。针对行为识别中小样本问题,本文使用了鲁棒的概率协作表示分类器(RProCRC)。实验结果表明,本文提出的基于模糊分片的多时间尺度深度动作图算法在多个常见的公开数据集上取得了较高的识别率。