论文部分内容阅读
人体动作识别是当前计算机视觉和模式识别领域的研究热点之一,它在视频检索、智能视频监控、人机交互、人体运动分析以及智能监护等领域中有着广泛的应用前景和巨大的市场需求,因此受到学术界、工业界、商业界以及安全机构等各方面的广泛关注。但是,由于动作样式、拍摄视角、光照、背景等的多样性,以及动作定义本身的模糊性,基于视频的动作识别依然是一个极具挑战性的问题。本文围绕人体动作识别中的关键性问题,分别从底层局部特征提取与描述、动作视频中层表示方法、大规模动作识别处理策略以及跨域动作识别方法等几个方面进行了深入研究,主要工作如下:(1)提出了有效轨迹底层特征提取方法和颜色差异特征描述。相对于传统密集轨迹采样,有效轨迹方法基于轨迹通过区域的运动和视觉显著性对轨迹进行判定,保留真正对动作识别有用的轨迹,节省了特征存储所需空间,提高了特征提取处理速度以及最终的动作识别率。传统的特征描述普遍忽略了颜色信息,颜色差异特征利用视频帧中局部区域与其邻域间的颜色差异作为特征描述,分空间域和时间域分别求取。实验证明,颜色差异特征与已有的形状特征和运动特征具有良好的互补性,结合后能够有效的提升动作识别准确率。(2)提出了一种包含时空信息的非负成分表示方法。传统的视觉词袋(BoVW)表示忽略了视觉单词之间的相关性以及局部特征时空分布信息。本文采用基于图正则化的非负矩阵分解算法,从底层局部特征表示中自动学习出相关视觉单词构成动作基元,将视频中的动作表示成多个动作基元的组合,由此得到中层非负成分表示。同时,利用混合高斯模型统计每个视觉单词所对应的局部特征时空位置分布,并用时空Fisher·向量对分布进行描述。通过在图正则化项中添加时空Fisher向量,将时空分布信息融入非负成分表示之中。实验证明,与BoVW相比,该表示方法可以有效提高动作识别准确率。(3)提出了一种针对大规模动作识别数据库的分层字典学习策略。大规模数据库中不同类别间的差异复杂多样,本文将相似和不相似的类别分开处理。基于类别之间的相似性对所有类别进行聚类,形成两层组织结构:第一层中各组差异较大,采用类特定字典学习,为每组学习一个单独的字典;第二层是各组中较为相近的子类,采用基于Fisher判别的混合字典学习,通过混合字典抑制共有部分,放大子类之间的差别。同时,针对分层字典学习的特点,本文给出了相应的分类方法。在多个大规模数据库上的测试结果表明,相比于不分层字典学习,该方法能有效提高大规模动作识别的准确率。(4)提出了一种基于非负混合字典学习的跨域动作识别方法。利用源域和目标域已标注数据,为每个类别学习一个非负混合字典,其中包含公共字典和域特定字典。公共字典对应的动作样本表示部分是两个域共有的,以此作为桥梁,实现跨域动作识别。为保证源域和目标域中公共字典所对应的编码表示部分的分布相近,在混合字典学习的目标函数中引入了最大均值差异来度量两者分布的相似度,最小化两者之间分布的差异。实验证明,与传统特征表示迁移方法相比,该方法能有效提高跨域动作识别的准确率。