论文部分内容阅读
人体行为识别是计算机视觉和多媒体分析领域一个非常活跃的研究主题,其涉及到图像处理、模式识别和人工智能等多门学科,在诸如消费者的互动娱乐和游戏、视频监控、生活照顾系统、视频检索和异常行为检测等领域展现出极其广泛的应用前景。行为识别的主要挑战在于数据获取的精确度和整个动作序列的动态建模,影响行为识别率的主要因素可以分为四类:1)遮挡、阴影、光照条件等;2)视角变化;3)尺度的变化;4)类内变异与类间相似性。近年来,随着3D深度摄像机的发布,比如微软公司的Kinect,可以提供场景的三维深度数据变化的画面,显著改善了行为识别的前三类问题,但对于第四类问题依然具有很大的挑战性。此外,3D深度摄像机还提供了骨骼追踪技术,可以从深度数据中确定人体各个关节点的位置坐标,从而构成人体三维骨架。论文从人体三维骨架序列出发,首先提出了时空特征链和双链的序列谱隐马尔科夫模型来解决了特征序列匹配时存在的时间动态性问题,随后建立基于自组织映射的层次时空模型,通过Hebbin学习子动作在每个动作中的重要度,进行人体行为预测;最后针对如何高效、准确地获取人体行为特征在低维流形的表示形式,对人体三维骨架序列张量化,通过扩展线性动态系统,来发现隐藏在数据中的内在几何结构与规律性,并在多个具有代表性的行为数据库上验证了论文提出方法的有效性。具体而言,本文的主要贡献和创新点主要包括下四点:1.针对三维骨架序列长度不一致和存在重复子动作问题,提出时空特征链模型。获得时空特征链主要通过三个步骤:第一,通过3D关节点位置的变化来绘制人体行动轨迹,并利用关节点轨迹的速度、曲率和朝向生成动作的分割点,把动作分割为多个富有意义的子动作。这些新获得的分割点能确定动作的开始帧和结束帧,并在一定程度上消除噪声。第二,构造子动作图,建立关节点位置和运动的关系。从子动作图中挖掘出动作中的周期序列,获得动作的非周期序列。最后,对动作的非周期序列对齐,获得时空特征链。2.针对时空对准问题,提出了双链序列谱隐马尔科夫模型。通过使用动作分割点,获得了有意义的行动单位,使得一个动作由瞬时动作(人体姿态)和子动作来表示。瞬时动作对应于动作分割点,用大写字母表示。子动作对应着动作分割点之间的子动作,用小写字母表示。那么,一个动作就可以表示为大小写字母交替的字符串。为了克服同一动作不同运动风格所造成的突变或异常姿势,序列谱马尔可夫模型采用Viterbi和Baum Welch算法对这些符号序列进行对齐,完成人体行为识别。3.提出基于自组织映射的层次时空模型,根据已知动作序列来预测人体行为。层次时空模型由两个自组织映射搭建,通过Hebbian来学习动作和子动作之间的关联度大小。由于变阶马尔可夫模型提供不同长度子动作序列之间的依赖衡量度,未知的动作序列则可以通过变阶马尔可夫模型进行预测。4.在张量动作序列表示下,拓展了传统估计线性动态系统参数方法,分析了三维骨架序列的高阶张量表示的优势。线性动力系统由于其相对简单和有效,在各种学科中是最常见的时空数据编码的工具。然而,传统线性动力系统对每个视频帧是以一个列向量作为其潜在的观测状态。这样的向量表示并没有考虑到维数灾难,以及人体骨架中有价值的结构信息。鉴于此,我们提出了广义线性动态系统对动作序列建模,使用Tucker分解张量动作序列,来估计广义线性动态系统参数。通过广义线性动态系统参数构成的动作描述符,使得一个动作可以映射到一个Grassmann流形上的一点。最后,使用Grassmann流形上的字典学习和稀疏编码对人体行为进行分类,取得了明显的性能提升。