论文部分内容阅读
作为图像视频语义分析方向的一个新兴的研究课题,人体动作识别的研究融合了图像视频处理、计算机视觉、模式识别、统计学习、人工智能和认知科学等多学科的知识。它通过分析图像或视频等底层数据,从中提取与人体动作相关的信息,建立底层数据和高层语义之间的关系。因其在智能视频监控、人机交互以及虚拟现实等领域的广阔应用前景和深远研究意义,近年来人体动作识别问题得到了广泛的关注,研究者们提出了大量的研究方法并取得了丰硕的研究成果。本文主要研究如何从视频或三维动作捕捉数据自动识别出人体动作类别,通过对已有研究工作的分析,总结出人体动作识别算法中的两个关键性因素:1.高效的人体动作特征提取方法,2.高效的动作分类算法。本文分别从特征学习和分类器设计这两个方面提出新的思路和解决方法,它的主要贡献如下。本文提出了一个基于语义上下文分析的近语义视觉词典学习框架,称为contextual spectral embedding(CSE)框架,以及相应的基于近语义视觉词典的高层语义识别算法。它们主要解决视觉单词聚类映射方法引起的视觉单词语义模糊以及信息冗余等问题。首先,采用一种无参数的视觉单词语义相似度计算方法对视觉单词的语义上下文进行分析。其次,建立以视觉单词为结点,语义相似度为边权值的有权无向图,结合谱聚类算法对视觉单词进行聚类。语义相似的视觉单词被映射到同一个近语义视觉单词中,因而生成的近语义视觉词典在一定程度上避免了底层视觉特征与高层语义之间的“语义鸿沟”问题。该方法可以扩展到很多涉及视觉词典的高层语义识别问题中,如人体动作识别和视频概念检索。通过多个视频数据库上的人体动作识别实验和视频概念搜索实验可以得到结论,近语义视觉词典可以有效地提高这类高层语义识别的有效性和鲁棒性。本文研究了基于迁移学习的跨视角人体动作识别算法,该算法以视频的视觉单词表示为基础,通过异源异构视觉词典的协同语义学习,克服“视角障碍”问题使得不同视角下的类别标识信息能够迁移。为此提出了一个基于多源约束近邻传播方法的跨视角视觉词典学习框架,称为Bilingual visual word learning with multi-source constraint propagation(BiVWL+MSCP)(?)匡架。首先,它从视觉单词的时空分布中估计异源异构视觉单词之间的初始语义相似度,并结合多源约束近邻传播方法得到鲁棒稳定的估计值。最后,建立以异源异构视觉单词为结点,语义相似度为权值的二分图模型,采用二分图协同聚类方法对视觉单词进行聚类。语义相似但来自不同视角的视觉单词被映射到同一个跨视角视觉单词中,因此跨视角视觉词典作为桥梁使得类别标识信息在不同视角之间迁移。通过在多视角动作视频数据库上的实验得到结论,跨视角视觉词典可以有效地解决人体动作识别中的视角变化问题,达到跨视角人体动作识别的目的。本章提出了一种基于三维关节点空间时序信息的人体动作分类算法。该算法以人体三维骨架模型表示为基础,为解决维度灾难问题将一维隐马尔可夫模型扩展成空间时序隐马尔科夫模型(spatial-temporal HMM),并提出扩展的forward-backward算法解决模型的评估问题和训练学习问题。该模型不仅研究人体动作中的时序信息,同时研究人体骨架模型中相邻的关节点的空间信息。通过在动作捕捉数据库上的实验可以证明,空间时序隐马尔科夫模型在对一组常见动作类别进行识别时,它在识别率和鲁棒性方面优于一维隐马尔科夫算法。