论文部分内容阅读
随着现代社会各种视频数据的超高速膨胀,对于视频中人体行为的分析持续成为计算机视觉领域的研究热点。人体行为识别技术与社会生活密切相关,其在web数据挖掘、智能监控、医疗辅助和人机交互等领域都有着广阔的应用前景。目前,计算机还无法像人类一样十分自如地识别各种苛刻环境下的行为,这是因为计算机无法排除遮挡、视角变化以及光线变化等环境因素的干扰,并且人体行为往往复杂多变,动作细节会随着时间不断变化。对于人体行为识别的研究可以归纳为三个部分:视频中人体行为的表示,人体行为的学习模型以及人体行为的分类。这三个部分虽然是依次进行,但是它们之间联系十分紧密。根据学习模型的不同,人体行为识别又可以分为基于模板、基于状态模型、基于空时特征学习三种不同的方式,其中,基于空时特征学习的方法通常具有一定的尺度不变性和抗噪声能力,本文内容正是研究基于空时特征学习的行为识别算法。为了更好地探索人体运动的内部结构信息,本文将用于结构性编码的组稀疏作为切入点,在结合了空时特征相似性以及人体运动的内在特点后,对组稀疏编码提出了改进。本文的主要成果如下:1.提出了基于Laplacian正则的非负组稀疏编码用于人体行为识别。该算法的主要思想是通过构造视频序列中所有初级特征的近邻图,对人体运动的局部相似性进行探索,并在组稀疏编码上引入这一反映初级特征间结构信息的约束,使得对于视频序列的编码不仅具有整体稀疏性,并且保留了结构信息,可以得到更具判别性的编码。2.提出了半监督字典学习用于人体行为识别的方法。在保证字典较强表示能力同时增强其判别性是人体行为识别中进行字典学习的重要目的。字典学习可以分为有监督学习、无监督学习以及半监督学习三种思路,本文提出的半监督字典学习能够充分利用大量存在的无标记样本来提高字典的表示能力,同时利用已标记样本进行类别字典的学习保证其判别性,因而得到了相比于无监督学习和有监督学习更具平衡性的字典。3.提出了一种多层组稀疏模型用于人体行为的高级特征学习以及分类。该方法的研究动机是:多任务组稀疏编码在约束字典原子时采用的方式过于苛刻,不符合不同类别视频样本间存在一致性这一客观事实。采用多层次的组稀疏模型,该模型将字典原子对视频序列高级特征的编码系数看做一个共同分量和一个独有分量的乘积,这样更加细致的刻画了不同类别视频样本间的联系,得到了更具判别性的编码,并可以用于分类。