论文部分内容阅读
人体活动识别与检索是计算机视觉领域的前沿研究领域,在智能监控、人机交互、体育运动分析等领域得到了广泛的应用。传统视频中的人体活动分析面临着遮挡、视点变化、镜头运动等许多难题,现阶段大规模数据更是为这个任务带来了新的挑战。如何快速、有效地在海量视频数据中实现人体活动检测和识别,是一个具有挑战的问题。本论文从视频中的人体活动检测出发,首先介绍了活动定位(Action Spotting)检测方法,并重点描述了通过检测提取高层次语义特征的Action Bank活动识别方法。接着本文详细分析了该方法在大规模数据处理中暴露出的两点问题:一是提取特征时,检测所用的模板是人工精心挑选的,这个过程不但繁琐,更不利于算法向大规模数据自动化部署和使用;二是该算法特征提取速度慢,分析一个视频常常需要几十分钟甚至数小时,这种速度显然无法满足大数据视频分析的需求。针对这两个问题,本文分别进行了研究并提出了相应的改进方案。相比人体活动识别与检索之前的工作,本文的贡献主要体现在如下两个方面:1.使用谱聚类这种现有的成熟聚类算法,首次提出了基于谱聚类的模板学习Action Bank方法。使用机器学习得到的模板代替了原始方法中繁琐的模板人工选择步骤。方法在KTH、UCF Sports两个相对小型的公开数据库和UCF50这个大规模活动识别数据库上进行了实验,验证了模板自学习Action Bank的有效性。2.针对原始特征提取速度慢的问题,提出了积量化Action Bank快速算法。算法利用积量化这种向量量化方法,将原始论文模板匹配相关距离计算转化为查找表的快速计算,大大地降低了算法的时间复杂度。在UCF Sports数据库上的实验表明该算法在略微损失识别率的基础上,特征提取时间至少缩短了一个数量级以上。总的来说,本文提出的两点改进方案使Action Bank在处理大规模视频数据时,能够快速、有效地提取特征用于分类和检索,并且完全省去了人工参与的繁琐工作,易于推广。对于大数据视频分析来说,两种改进的方案都是非常有意义的。