论文部分内容阅读
随着近年来各式新型传感器(如微软的Kinect)的不断问世,多模态人体行为识别研究逐渐成为计算机视觉领域内一个新的研究热点。相关研究成果可以广泛应用到智能视频监控、互动娱乐、视频内容的分析与检索等应用中。本文按照多模态数据预处理、特征提取与选择、人体行为识别这三个主要步骤,围绕多模态人体行为识别这一主题开展一系列研究工作,取得以下成果:首先,在多模态数据处理方面,针对三维人体运动数据补全和去噪问题,分别提出三种新算法。提出一种采用l1稀疏表达的缺失标记点预测方法,将传统三维人体运动数据标记点缺失问题转化为寻找已观测到部分姿态数据的稀疏表达最优化问题。为了缓解训练数据集容量有限的问题,提出一种表达系数加权更新算法,用于对训练数据集进行定时动态更新,有效地提高了预测算法的稳定性。提出一种数据驱动的鲁棒人体运动数据去噪算法,挖掘人体运动数据中存在的时空运动模式和结构性稀疏特性。与其他数据驱动算法比较,该算法不需要对训练数据集进行特意挑选,在实际应用中更易于使用。大量的模拟和真实噪声数据的对比测试表明,该算法始终优于其他现有方法,输出的人体运动更加稳定可靠。提出一种非数据驱动的人体运动数据增强算法,在一个统一框架下同时解决人体运动数据增强所涉及到的数据补全和数据去噪两个子问题。在构建算法目标函数时,不仅考虑人体运动数据的低秩结构特性和时序平稳特性,而且将数据中噪声因素也考虑进来。为了优化求解该目标函数,提出一种基于增广拉格朗日乘子算法的迭代优化方法,实现对目标函数的快速优化求解。此外,提出一个可信数据检测方法用来提高整个数据处理过程的自动化程度和提升算法性能。大量对比实验验证了本文所提算法在缺失数据补全和数据去噪两个问题上的有效性。接着,在特征提取与选择上,提出一种自适应无监督多视图特征选择算法,用于从原始高维异构多视图特征中选择出一组具有区分性的紧凑特征子集作为特征表达。该方法成功地解决了现有特征选择算法是针对单视图(单特征)设计构造的,不能直接处理多视图特征数据,无法充分利用不同视图之间关联性的问题。同时,提出一种局部回归最优化设计的主动学习算法,用于主动地对未标注的多模态数据样本进行选择,从而有效提高算法模型性能。在基于相关反馈的社交图像检索应用中,本文所提算法优于其他对比算法。最后,在人体行为识别上,提出一种保持语义一致性的多模态特征融合与行为识别算法和一种多骨架特征融合与选择算法。前者依据同一RGB-D数据样本中不同模态数据包含相同的人体运动语义信息的特点,挖掘和利用不同模态数据之间存在的较强关联性和互补性信息,从多模态中底层特征学习得到高层语义特征表达,用于多模态人体行为识别。后者从三维人体骨架数据中提取多种具有区分性特征表达,运用特征融合与选择算法得到更具区分性的紧凑特征表达。在公共数据集上的大量对比实验发现:该算法不仅所需计算量和存储量少,而且识别准确率接近或高于已有研究工作。