论文部分内容阅读
动作识别和行为理解是计算机视觉和模式识别领域的热点问题,在高级人机交互、智能视频监控、虚拟现实等领域具有广泛的应用前景。本文主要研究图像序列中人的姿态估计与动作识别,包括姿态估计中高维状态向量的约减、单目图像估计三维姿态的多义性、动作识别中特征的提取与表示、分类器的设计与建模等问题。本文研究了基于非线性流形学习的三维人体姿态估计,提出时间邻域保持嵌入(Temporal Neighbor Preserving Embedding, TNPE)的非线性流形学习算法得到反映人体运动本质的低维流形空间。在基于学习的姿态估计框架下,采用贝叶斯混合专家(Bayesian Mixture of Experts, BME)模型对从低维流形空间到高维姿态空间的非线性映射关系进行建模。为计算每个专家的权重,采用高斯混合(Gaussian Mixture Model, GMM)模型对低维流形空间中的数据分布进行概率建模,得到各个专家的先验概率和先验分布形式。实验表明,该方法能够准确地估计人体姿态。本文提出了基于语义知识反馈的三维人体姿态估计框架,利用人体运动的高层语义知识自上而下地对人体姿态的估计进行指导,减少了单目图像三维姿态估计的多义性和不确定性。建立全局时间运动模板,表示运动中姿态之间的时间先后约束关系;建立局部空间运动关联函数,表示身体各部分之间的运动相关约束。将运动模板和运动关联函数分别定义为全局语义知识和局部语义知识,并利用这两种运动语义知识对由粗略估计得到的可能姿态进行筛选和更新,得到更加准确的估计结果。实验表明,引入高层语义知识反馈的估计方法能有效地提高估计的准确度。本文提出了增量判别典型相关分析方法(Incremental Discriminant-Analysis of Canonical Correlations, IDCC),用于复杂环境中人的动作识别。该方法通过判别投影矩阵将所有动作投影到一个新空间中,以实现同类动作之间的相关系数最大化和不同类动作之间的相关系数最小化。针对运动中人的表观特征由于周围事物的影响而不断变化的问题,该方法通过增量学习不断更新判别矩阵,使得判别模型能随着数据的变化而自我调整,减少了环境变化对识别效果的影响。多个行为数据库上的实验表明,增量判别典型相关分析方法在复杂多变的环境中也能鲁棒地识别不规则的动作。本文研究了基于时空兴趣点的动作识别方法,提出了时空兴趣点的多尺度时空分布词袋模型。该模型在视频中不同时空尺度的局部区域内,对兴趣点的时空分布信息进行建模,从多个层次描述了兴趣点之间的时空上下文关系。同时利用时空兴趣点的表观词袋模型对兴趣点的表观信息进行建模。多尺度时空分布特征和表观特征从两个不同的角度分别描述了兴趣点的“在哪里”和“是什么”属性,本文采用多核学习方法将这两种特征有机地融合起来,生成更具描述能力和判别能力的特征。基于时空兴趣点多特征的识别方法不需要目标检测、人体跟踪等预处理工作,在存在噪声阴影、摄像机发生抖动、视频分辨率低等情况下也能取得令人满意的识别结果。单视角和多视角行为数据库上的实验证明了该方法的有效性。