论文部分内容阅读
基于计算机视觉的人体动作识别在视频监控、视频检索、人机交互等领域有着广阔的应用前景,是近年来计算机视觉领域的研究热点。经过国内外学者几十年的不懈研究,该领域取得了长足的发展。但是,由于非理想的成像条件和较大的类内差异,人体动作识别仍有许多难题亟待解决:如缺乏统一有效的特征描述和模型表示、低层图像特征和高层语义之间的“语义鸿沟(semantic gap)"、高效的机器学习方案设计等。本文的工作紧密围绕动作识别展开,针对该领域的难点,主要从“特征提取”和“机器学习”两方面进行改进和创新,提出了一些有价值的解决方案,论文的主要研究成果归纳如下:1)基于多特征融合和分层反向传播增强(hierarchical BP-AdaBoost)算法的动作识别。大多数文献采用支持向量机(support vector machine, SVM)作为判别式分类器,而人工神经网络(artificial neural network, ANN)则很少被使用。为了探索ANN在动作识别中的性能,本文设计了一个基于分层BP-AdaBoost的动作识别系统:将标准的二分类AdaBoost算法扩展到多分类版本,用于增强BP网络;提出了包含预判决和后判决模块的分层识别框架,以进一步减少训练复杂度、避免类间混淆;为了利用特征的互补性,系统融合了多种运动和形状特征。实验结果证明了ANN相对于SVM在训练时间和识别准确率方面的优越性,以及分层识别框架可以极大地减少训练代价和动作类间的混淆,使识别率显著提高。2)基于快速3D有向梯度直方图(Fast HOG3D)和自组织特征映射(self-organization feature map, SOM)的动作识别。早期的动作识别文献采用具有简单背景的基准数据库,如今涌现出许多包含“杂乱背景”的真实行为数据库,而在这些数据库上的动作识别率还普遍偏低。本文以目前最流行的空时兴趣点(spatio-temporal interest points, STEP)为局部特征,提出了一种结合快速HOG3DSOM的新的动作识别框架,不仅构造了比原HOG3D更紧凑、计算更高效的局部描述子,而且成功地将SOM应用于真实场景下的动作识别,并仔细研究了训练参数的影响。实验表明,快速HOG3D在提高计算效率的同时,能够在很大程度上保留原HOG3D的判别性;SOM的性能与词袋(bag-of-words, BoW)方法相当,且在识别率和对标签噪声的鲁棒性方面明显优于基于局部特征的SVM。3)基于Huffman编码和隐动作模型(implicit action model, IAM)的动作识别。为了利用多种特征的互补性,使用5个通道的描述子描述STIP,通过层次合并聚类生成各通道的码本。通常的基于BoW和SVM的识别方案完全忽视了局部特征之间的上下文关系,丢失了不少有用的信息,系统的识别性能也因此受限。本文提出的基于IAM的动作识别方法由于考虑了STIP与中心兴趣点之间的空时统计关系,具有优越的性能;而uffman编码能够忽略小的概率差异同时保留大的概率差异,对视觉单词的条件概率估计有较强的容错性,因此超越了直接使用视觉单词条件概率的朴素贝叶斯(naive Bayesian, NB)方法。另外,本文还结合了“层次码本”、“稀疏编码”、“特征融合”等多种机制进一步提升系统性能。实验验证了基于Huffman编码和IAM的动作识别的有效性,且融合这两种方法并采用多种特征构成的识别系统达到了超越其他文献的识别率。4)基于随机森林(random forest)和空时相关性的动作识别。为了更好地识别交互行为,必须充分挖掘和利用局部特征间的空时约束关系。这部分工作仍然以STIP为低层特征,在此基础上生成两种中层特征:运动上下文(motion context, MC)和STIP共生序列(co-occurrence sequences)。 MC无需对STIP进行描述,直接统计它们的空间分布形成直方图,用于训练随机森林。遗传算法(genetic algorithm, GA)被首次运用于决策树的训练,实验证明GA实现了决策树训练算法在性能和效率之间的有效折中。另一方面,STIP共生序列捕获了局部特征的时序共生特性,可以利用生物序列匹配算法计算视频间的时间相关性;而视频间的空间相关性则是基于MC和STIP码本计算直方图交叠核得到的。实验表明,如果采用相同的码本,所提出的基于视频空时相关性匹配的方案在性能和效率上都要优于BoW和概率隐语义分析(probabilistic Latent Semantic Analysis, pLSA)方案。5)基于多通道轨迹特征和数据挖掘(data mining, DM)的动作识别。现有工作已经证明了轨迹特征的优越性,因为轨迹包含了STIP的空时上下文信息,因此比STIP更高级。本文采用基于光流场的方法,并结合稠密采样与兴趣点检测提取多尺度轨迹,用6个通道的局部特征和12个通道的全局特征描述这些轨迹并聚类,DM和K最邻近(Knearest neighbor, KNN)分类分别用于基于局部特征和全局特征的识别。本文将视频数据库建模为“事务数据库”,用DM的方法挖掘频繁轨迹和频繁轨迹簇作为动作模板。实验证明基于局部轨迹的DM方案比SVM更有效,其性能与基于BoW的KNN分类相当;基于轨迹特征融合的DM方法与其他文献比较,达到了与当前最高水平相当的性能。