论文部分内容阅读
人体行为识别是计算视觉与模式识别领域中一个重要课题,在视频监控与视频检索中有着广泛的应用。近年随着技术进步,廉价的RGB-D相机(如Microsoft Kinect)能够捕获三维场景中丰富的时空信息。研究者建模时空交互信息,可以更便捷地学习复杂人体行为结构。人体行为识别的早期研究工作,通常以2D视频作为感知数据源;但是,2D视频提供的信息有限,即使在没有遮挡的情况下,也会导致相对较低的识别准确率。本文使用RGB-D传感器捕获RGB视频和深度视频,以人体姿态与交互物体的共生关系和几何约束为基础来识别人体行为动作。首先采用人体骨架来描述行为主体,以骨架中各个节点为中心划分局部区域边界框,将各个边界框定义为人体的各个组成部分;然后分别对各个边界框区域提取HOG-3D特征,并将其作为人体姿态特征;最后将人体姿态特征、物体的位置与形状特征、行为主体与物体交互特征等特征串联组合成最终的特征向量,并将此特征作为每个行为视频段对应的观察数据。线性链条件随机场(Linear-chain CRFs)作为一种判决模型,广泛应用于人体行为识别。由于其能够在时间维上捕获目标状态之间的一阶或数阶相互依赖关系,因此在对时间序列进行标注的工作中表现出良好的预测性能。但是现有的条件随机场模型无法捕获目标状态内部的中间表示,以及状态之间的高阶相关性。而这些信息在对复杂的行为识别场景中通常会表现出潜在的重要性和显著性。为克服这一难题,本文提出了一种深度递归分层条件随机场模型(Deep Recursive and Hierarchical Conditional Random Fields,DR-HCRFs)模型。该DR-HCRFs模型能够目标状态内部丰富的语义信息,以及目标状态之间无穷阶的相关信息。同时,为精确推理模型以及降低模型的计算复杂度,本文提出了一种基于平均场近似(mean-field-like)理论的模型推理方法。最后,本文分别使用割平面(Cutting-plane),弗兰克-沃尔夫(Frank-Wolfe,FW)算法和块-坐标原始-对偶弗兰克-沃尔夫(block-coordinate primal-dual Frank-Wolfe,BCFW)优化方法驱动的结构化支持向量机(Structural-Support Vector Machine,SSVM)分类器学习关于人体行为序列的判别分类模型。通过在CAD-120数据集上的实验可以发现,本文提出的人体行为识别框架相比其他先进方法表现的更为出色,且面对不同数据具有较大的扩展性。