论文部分内容阅读
行为识别在人机交互、虚拟现实、视频监控以及视频检索和分析等领域的广泛应用,引起了越来越多研究者的兴趣。行为识别具有重要的学术研究价值和很强的实用价值,是计算机视觉、模式识别和人工智能等领域的研究热点和难点。目前行为识别存在的问题主要包括:由于视角变化、复杂背景以及不同的运动速度和类型,同类行为存在较大的类内差异。此外,一些行为包含相似的运动模式,使得不同类行为具有较小的类间变化,进而引起混淆。同时,高维视频数据引起的特征冗余,摄像头运动和视频的低分辨率进一步增加了提取有效特征和设计鲁棒识别方法的难度。如何从视频中提取有效的特征和设计更为有效的行为识别构架是亟待解决的关键问题,本文对现有的行为识别方法进行分析和总结,并做出以下工作:首先,对常见的行为识别方法进行分析和总结。针对传统描述子没考虑特征之间联合统计特性的问题,本文在稠密轨迹的基础上,将图像梯度、光流和运动边界的时间导数作为底层运动特征,然后通过计算底层特征之间的协方差矩阵,构造了TBCM(Trajectory Based Covariance Matrix)描述子,充分考虑了特征之间的联合统计特性,进一步提高对复杂环境中行为主体的描述能力。其次,提出了一种判别性的非线性特征融合方法。本文将类别结构信息引入到KCCA(Kernel Canonical Correlation Analysis)方法的目标函数中,构造了一种新的特征融合方法。该融合方法最大化了全局和局部特征之间的非线性相关性,同时减小了类内差异性,并加大了类间差异性,进一步增强了特征的判别能力。再次,构造了深度3D卷积描述子。本文分别从C3D(Convolutional 3D)网络中提取各层的特征,并将fc6和fc7层特征向量串接作为全局特征,pool4和pool5层特征向量串接作为局部特征,通过判别性的非线性特征融合方法,将全局特征和局部特征进行融合,得到一个更加完备和更具鉴别性的深度3D卷积描述子。在UCF-Sports库和YouTube库上,对本文行为识别方法进行验证并与现有方法对比分析。实验结果表明本文方法的有效性。最后,总结了论文的主要研究内容,并进一步给出了未来的研究方向。