论文部分内容阅读
人体行为识别与视频分类是计算机视觉研究领域的关键问题。随着社会媒体共享的快速发展,人们需要及时处理大量的多媒体数据,如大尺度的视频分类和标注,尤其针对包含人体行为的视频分类。行为识别广泛应用于视频监督、视频检索和人机交互等。作为模式识别和机器学习任务中一项非常活跃的研究,人体行为识别目前的研究已经从底层特征的优化设计转向了中层语义特征的提取上来。本文在对已有研究成果与现存问题比较分析的基础上,旨在提取具有判别性的行为部件,并进一步模拟部件的交互关系,具体如下:一.本文分析了基于经典的聚类算法用于部件提取时存在的问题,即算法需要手动设置聚类簇数目、随机初始化使得算法易陷入局部最优解以及欧式聚类在高维空间中效果不太好的问题,提出了一种改进的谱聚类算法,该算法以获得的部件需要满足空间位置相近和运动相似的特点出发,采用空间位置距离和速度距离进行相似性度量,同时,簇间相似度的度量方式同时结合了数据分布的局部信息和全局信息,构造了一种新的相似度度量方法,度量准确度更高,获得的部件更符合人对主体运动的理解,进一步保证了较好的聚类效果。二.本文针对候选部件的纯粹性不足和类间判别性不足的问题,提出一种判别式约束方法,剔除了非部件内的轨迹特征点、度量了簇内触发频率和簇间触发频率,并剔除了判别性不足的候选部件,保证了部件的判别能力足够高。本文采用谱聚类算法和判别式约束方法结合的判别式聚类分析算法能够将身体各个部件的运动分离出来,即避免了经典聚类分析算法的存在的问题,获得的行为部件还具有较强的判别性。三.考虑到不同行为的部件间的相互作用是有差异性的,因此,本文进一步模拟了判别性行为部件间的交互关系,包括部件间的时空关系和因果关系。然后,将部件表示和部件间的交互作用结合以获取本文中层表示Action-net,这种表示方式表达了输入视频和行为类别间的相关性,能够得到容量更小但包含更丰富的语义类别信息和运动信息的数据。最后,将中层语义特征输入到训练好的隐SVM(LSVM)分类器中,获取最终的行为识别率。实验分别在四个公开数据集上分别进行,识别结果证明了本文提出的方法的有效性。文末,对本文的主要研究内容进行了简要总结,并给出了接下来的研究工作。