论文部分内容阅读
自然场景视频中的人体行为识别问题是计算机视觉研究领域的重要课题之一,在视觉监控、视频检索、人机交互以及人体运动分析等诸多领域中都具有十分广泛的应用前景。本文将在局部特征描述以及动作识别领域所取得研究成果的基础之上,通过建立时空结构化模型,进一步探索更具表达能力、更适合运动描述的局部特征与全局特征相结合的方法。该研究工作主要以提高识别算法的精度和计算速度为目标,并且能够立足于各种不同的运用背景,构建适合各种不同运用需求的模型结构、参数学习算法以及检测定位算法,最终实现对于人体行为的自动检测、分析与识别。本研究主要内容包括: ⑴提出了一种新的复杂人体活动行为的识别模型及其双优化选择的学习算法与图像相比,视频的一个主要优点在于能够表现那些由多动作构成的具有一定时间结构的复杂人体活动行为,例如“三级跳”和“跳高”等。前人曾经(在隐含Markov模型和条件随机场等模型基础上)设计了一些算法,用来建模时间结构信息,但是这些算法要么不能表征大的类内变化,要么需要在有指导的条件下进行训练。为了克服这些算法所存在的缺点,本文提出了一种新的基于多隐含时间模型的识别算法。该算法利用具有固定帧数的视频片段来表征关键的运动事件,利用时间金字塔模型来描述视频片断内部的时间结构信息,并利用多模型组合来捕捉大的类内变化。为了在弱指导条件下学习模型参数,我们提出了一种新的双优化选择学习算法。该算法将各个训练视频所属的模型序号以及关键视频片段的起始帧全部设为隐含变量,然后利用隐含变量 SVM训练模型参数。在 Olympic Sports自然场景视频数据库上的实验结果表明了该识别算法的有效性。 ⑵提出了一种改进的隐含变量多类SVM学习算法,并成功应用于较多类人体动作识别多类人体动作识别是一个十分具有挑战性的问题。首先,更多动作类别通常包含更多的共有特征,因此更难以找到对于各类来说具有判别能力的关键运动模式;其次,更多类别通常需要收集更多视频来训练模型参数,因此学习算法必须对于大数据库具有可扩展性。为了更好解决这一问题,本文采用隐含结构模型,并提出了一种改进的隐含变量多类SVM学习算法。首先,与前人提出的隐含结构 SVM算法和最大边缘隐含条件随机场(MMHCRF)算法不同,本文算法直接求解包含一组线性不等式约束的对偶二次规划(QP)问题。其次,为了提高计算速度,本文提出一种改进的QP求解算法,在速度上取得了十分显著的提升。我们在两个大型的自然场景视频数据库(HMDB51和UCF50,分别包含51和50种人体动作)上测试该算法的分类性能。实验结果表明本文所提出的多类隐含变量SVM算法明显优于隐含变量SVM、隐含结构SVM和MMHCRF算法,能够获得较优的分类精度和运算速度,并在这两个数据库上获得当前最优识别率。 ⑶提出了一种基于逐帧检测、组合多检测算子与紧密点轨迹的人体自动跟踪改进算法在实际工程运用中,往往需要了解行为发生的时间以及空间位置,尤其是当视频中出现多人的时候。一种通常的做法是:首先提取不同人体的运动轨迹,然后识别各个人体所执行的行为。传统的目标跟踪算法需要首先在第一帧手动标出待跟踪区域,这样不仅影响到长时段跟踪的性能,而且限制了跟踪算法的广泛运用。为了克服这些缺点,我们设计了一种完全自动实现的人体跟踪算法。该算法包含以下两个步骤:首先在各帧内进行人体检测和定位,得到人体窗口;然后对各帧内的检测窗口进行链接,形成多条人体轨迹。为了提高跟踪算法的性能,本文提出了以下几点改进之处。第一,我们使用了多个人体检测算子,这些算子检测不同的人体部分,因此能够适应各种不同的人体姿势和遮挡情况。第二,我们采用级联检测算法和帧采样,来提高检测速度。第三,我们利用密集的点轨迹算法来计算两个检测窗口间的链接度,并使用凝聚聚类算法将各帧内的检测窗口链接起来。在TVHI两人交互动作自然场景视频数据库上的实验结果表明了本文所提出的全自动跟踪算法的有效性。 ⑷提出了一种新的基于人体跟踪轨迹的两人交互动作识别算法人际交往是人类生活的重要内容。本文关注对于人体之间交互动作的识别。首先研究两人之间的交互动作。因为对于识别具有关键作用的往往是人体之间的高阶特征,所以该问题是相当有难度的。本文设计了一种新的交互识别算法,该算法利用了时空结构化模型来建模这些高阶特征。该算法是建立在以上所提取的人体轨迹的基础之上,通过合并两个时间金字塔模型来表征人体间交互动作的时间变化模式,并利用一个距离变化字典来编码人体间相对距离的空间变化模式。为了在弱指导条件下学习模型参数,我们将各个训练视频中人体轨迹的序号以及关键视频片段的起始帧全部设为隐含变量,然后利用隐含变量SVM算法训练模型参数。在TVHI,UT-interaction和HMDB51数据库的七个两人交互动作类别上的实验结果表明了该识别算法的有效性。