论文部分内容阅读
行为检测识别是指在视频序列中检测出行为的时空位置并预测其类别。该技术在异常检测、人机交互、视频检索以及不良视频过滤等领域都有着广泛的应用前景,因此越来越受到学术界和工业界的广泛关注。该任务的关键难点在于相同的行为会因不同的执行者和不同场景而差异很大,这主要是因为其受场景中行人多、视频质量低、行为的姿态分布广、光照强度变化大等因素的影响。针对这些问题,本文主要从特征学习的角度入手研究,即在给定的视频序列中,如何有效地编码出判别的行为特征,使其能够更加准确地检测和识别目标行为。首先,在不同语义层次的行为表达中,基于中层部件的特征表现出了很强的判别性,而传统方法在构建中层特征的过程中丢失了时空不变性,并在挖掘中层部件过程中忽略了部件之间的相关性。本文提出了一种基于显著性驱动的最大池化方案,通过提取视频中的显著性线索来动态地池化中层特征,进而增加特征的时空不变性;同时,本文还提出一种基于组稀疏模型的中层部件挖掘方法,该模型有效地考虑了部件之间的相关性。最后,为进一步提升行为特征的鲁棒性,本文提出使用该稀疏模型系数来进行特征选择。实验结果表明,本文编码的行为特征在多个公开数据集上取得了明显的性能提升。其次,因为基于中层特征挖掘的传统方法均没有考虑候选部件池的影响,本文提出了一种迭代式的部件挖掘策略来递归地精炼候选池,在每次迭代的过程中,我们将移除其中小权值的中层部件,这些部件被认为是噪声。同时,本文继续研究中层部件之间的相关性提取的问题,首先明确的给出部件相关性的定义,然后提出基于最大间隔的方法来进行部件选择,并在理论上证明这种方法的有效性。在多个公开的行为识别数据集上,该方法性能有了显著的提升,并取的了当时最高的识别精度,证明了该行为特征学习方法的有效性。再次,在无剪切的视频序列中进行端到端的时序行为检测的过程中,感受野是一个十分重要的因素,而传统方法中并没有很好地考虑该因素,从而导致其因感知野太小而使得行为检测失败。针对该问题,本文设计了线性、相关性和多尺度时序函数等三种不同函数来编码行为的长时信息来增加模型的感知野。然后,本文将该三种函数分别设计成不同的网络层,使其可以嵌入到现存的各种深度模型中,从而增加其在时序上的长时感知能力。在具有挑战性的数据集上,本方法显著性的提高了行为检测性能,并超过了当前最好结果,这说明该方法简单但十分有效。最后,由于时空行为检测的精细标注是耗时耗力且容易出错的,因此目前还没有满足实际需求的公开数据集。为解决传统方法过度依赖精细化标注的问题,本文提出了一种端到端的弱有监督行为检测网络,仅利用视频级的类别标记信息进行行为检测。该算法首先使用人体和运动显著性的信息来指导深度模型的学习,并在推理的过程中结合模型的梯度信息来进行行为的空间定位。在时序检测中,本文提出了一种稀疏约束的正则项来学习视频片段级的时序定位。实验结果表明,该方法取得很好的性能并超过部分全监督的方法。本文的研究主要针对具体应用的需求,重点研究行为检测中的特征学习问题,对推动该技术在安防监控和互联网中不良视频过滤领域的实际应用、提高社会治安和维护互联网健康环境具有重要意义。