论文部分内容阅读
在过去的几十年里,行为识别一直是计算机视觉与机器学习领域的热点研究课题。行为识别的主要应用领域包括异常行为分析、医疗健康监控、人机互动、视频监控和机器人。多年来,人体行为识别研究前期主要集中在RGB图像序列。随着成像设备的发展,特别是微软的Kinect相机能够同时捕获低成本、高采样率的实时深度图像和彩色图像,使得深度图像得到了广泛应用。RGB图像具有丰富的纹理信息,深度图像具有更好的稳定性,其像素值不受光照和环境变化的影响。此外,深度图像可以描述场景的三维信息,两种图像特性具有互补性。本文主要从深度图像多特征融合、RGB图像与深度图像双通道特征融合、手工特征与深度学习特征融合三个方面研究行为识别算法。主要工作有以下几个方面:(1)深度视频序列的特征提取:在传统深度图像序列的人体行为识别研究中,基于深度运动图的行为识别方法取得了显著的效果。本文将深度视频分别去掉开始和结束的五帧视频序列,其余深度帧都投影到三个正交方向。在每个投影方向,累计两个连续帧之间的绝对差值形成三个方向的深度运动图。基于三个方向的深度运动投影图(正向投影、左投影、上投影)提取图像特征,从三个视觉角度描述人体运动,形成运动描述子。(2)融合深度图像和RGB图像的CNN特征:考虑到深度图像与RGB图像互补性的特点,将RGB图像和深度图像的特征融合为高度可区分的融合特征。本文采用了一种经典双流卷积神经网络分别对深度图像序列和彩色图像序列进行特征提取。在深度图像序列通道,首先将一个深度视频序列处理成一张深度二值差值运动图(DBDMM),并将DBDMM输入VGG19卷积神经网络进行训练并提取特征。在彩色图像通道,利用对应的深度图像序列对彩色图像序列做一次交互,进行背景去除处理,得到人体前景RGB深度图(RDM),求得RGB差值运动图(RDMM)后,对深度通道做进一步类似于深度图像通道的处理,对RGB图像序列利用DBDMM进行二次交互,得到RGB二值差值运动图(RBDMM),突出运动变化显著区域。最后,RBDMM输入VGG19卷积神经网络训练并提取特征,最后将深度通道和RGB通道得到的特征融合。(3)一种多特征融合方法:将RGB和深度信息融合为高度可区分的特征可以提高行为识别算法性能。近年来,主成分分析在信号处理、模式识别、数字图像处理领域得到了广泛应用。主成分分析(PCA)可以在尽量减少信息损失的原则下,提取主要特征,并去除多源数据间的线性相关。信息熵解决了信息量化问题,一般来说,图像特征的信息熵越小,其所含的信息量就越大,这一特征即被赋予了更大的权重,即可以在综合评价中发挥更重要的作用。本文基于PCA和信息熵的特点提出基于信息熵改进PCA(IEPCA)的特征融合方法。IEPCA计算过程如下:首先,构造图像特征协方差矩阵,计算其特征值和特征向量。其次,根据特征值计算特征贡献率和信息熵并得到相应的权重,最后,对特征进行加权融合。本文深入研究深度图像序列的多特征融合、RGB图像序列和深度图像序列的特征描述以及特征融合、双通道深度学习特征融合。在公开的深度数据集DHA和MSRAction3D上进行实验,通过对比实验证明本文提出的基于多特征深度运动图及基于RGB-D的行为识别算法均能取得较好的识别效果,可用于行为识别。