论文部分内容阅读
基于视频图像数据的人体特征识别(人脸识别、行为识别等)是计算机视觉和模式识别领域的研究热点之一,众多领域的应用需求推动了该技术的发展,如视频监控、人机交互、视频检索、体育赛事分析和医疗诊断等等。但是,目前多数摄像机采集到的视频图像数据均为高维数据,难以直接获取有效的行为特征。而个体差异及外部环境变化等因素导致了大量变量的产生,这些变量的存在使得图像中人的形貌和动作特征难以被精确描述。因此,发展有效的图像数据降维和稀疏表示以及机器学习方法,以提高人体特征提取和分类识别的准确性和稳健性,成为该领域需要解决的关键问题。本文重点针对高维视频图像数据的基于流形学习的非线性降维方法、基于压缩感知的稀疏表示及字典学习方法,及其在人脸识别和人体行为特征提取与行为模式分类方面的应用,开展理论和实验研究。首先,分析了几种典型的基于流形学习的非线性数据降维方法,研究了降维效果的评价方法。针对主观分析法评价降维效果存在主观性强、缺乏必要的量化计算指导的问题,提出了一种流形降维效果评价方法,利用了可信赖性和连续性两个指标,分别对流形降维可视化效果图的可信赖性和邻域保持特性进行分析,以实现降维效果的量化评价,通过Swissroll和Helix等经典数据集上的实验,验证了该评价方法的有效性。其次,为了处理大型数据集和增量化降维问题,提出了一种基于局部约束字典学习的非线性降维和重构方法,利用局部邻域约束条件构建一个非凸的目标函数,利用拉格朗日乘子法求取其解析解,采用交替迭代法对目标函数进行优化,以减小计算量和存储空间,提高目标函数的优化效率,在经典数据集Swissroll,Swisshole和Twopeaks上的实验研究,验证了该方法的有效性。进一步地,提出了基于局部约束字典学习的图像分类方法,该方法通过构造与类别相关的结构化字典,利用待测样本的稀疏表示系数和重构误差进行图像分类,其局部约束条件可以增强类内相似性,提高结构化字典的判别能力,有利于提高算法的分类性能,通过在ORL、Extended YaleB和AR数据集上的人脸识别和性别分类实验,以及在Caltech101、Caltech256和Cifar-10数据集上的目标分类实验研究,验证了该方法的有效性。然后,针对视频序列中人体动作行为的复杂多变性,提出了一种基于类能量图和金字塔梯度直方图(PHOG)特征的人体行为识别方法。该方法首先计算目标轮廓图像的平均运动能量图(AMEI)和增强的运动能量图(EMEI),提取其PHOG特征作为人体行为特征描述。然后分别使用支持向量机(SVM)和Real Adaboost算法设计多类别分类器,实现基于PHOG特征的人体行为识别,这种基于查找表型弱分类器设计的Real Adaboost算法具有良好的抗过拟合能力,能够提高人体行为识别的性能。实验结果验证了该方法的有效性。最后,针对如何有效描述人体行为特征、提高识别准确性的问题,研究了基于二维时空模板的人体行为识别方法。由于二维时空模板是人体行为特征的全局描述,难以对局部行为特征进行精确表达,提出了基于局部约束线性编码的人体行为识别方法,该方法先对二维时空模板进行时空金字塔分割,提取各层次上所有分块的SIFT特征,建立人体行为特征的层次化描述,再对其进行局部线性编码,采用最大池max pooling实现人体行为识别。另外,提出了基于局部约束字典学习的人体行为识别方法,该方法采用增强的类能量图像对行为特征进行描述,通过构造具有判别能力的结构化字典,对行为特征进行识别。将两种方法分别在Weizmann和DHA数据集上进行了人体行为识别实验研究,验证了方法的有效性。