论文部分内容阅读
视频行为识别的目的是自动检测并分类来自输入视频的正在进行的活动。它在监控,在线视频,运动分析等方面有很多应用。在某些特定的场景中,监控视频中的非正常行为是大家关注的重点,通过系统自动识别异常行为,工作人员可以及时的判断目标区域是否存在危险行为以及它的特点,从而防止恶性活动的进一步扩散及更恶劣后果的出现。视频行为识别是机器学习在安防领域的深入应用,这个产业也吸引着越来越多的研究人员和学者的加入。视频行为识别是指从视频序列中自动分类,其类别通常是人类行为,如步行,慢跑等。视频分析与图像分析最大的区别在于,视频序列包含额外的时间信息,所需的计算量通常要大得多。因此,当前人体行为识别算法的难点集中在这几点:1.如何提取有效的时间域特征和空间域特征是姿态识别和行为分类过程中最重要的问题;2.如何有效融合相同的空间域下和不同时间域下的特征,共同完成姿态的估计和行为的描述;3.为了满足实际应用的要求,算法的效率非常重要,即如何在保证特征提取能力的基础上缩小模型规模;4.网络在训练集上的分类结果非常好,但往往在测试集上的分类结果并不理想,即如何保证模型的泛化能力。这些问题限制了计算机模型自动完成视频中行为的识别,为智能监控、公共安全监督等实际应用带来的困难。本论文围绕上述问题提出了相应的解决办法,并通过实验完成了对算法效果的验证。人体行为识别任务是典型的分类问题,通常配合大规模的样本完成机器学习模型的训练以使其收敛。典型的一种样本是视频,其中包含着不同的人在不同时间下的在不同空间位置的多种行为,因此需要同时考虑单个行为的多种表达方式和多种行为之间的本质区别,换句话说,也就是样本的全面性和独特性,因此文本尝试了多种数据增强方式以观察其有效性。目前,对于基于视频分析的人体行为识别任务的研究仅仅到达了动作识别的层级。在这个任务中,行为对象包括两种:其一是满足某些特定规则的固定种类的简单动作,例如行走、慢跑、跳跃和下蹲;其二是具体环境下的特殊情形,包括不法分子的抢劫、偷窃、打架斗殴。在后者的环境中,人体作为非刚体,其动作和行为很难被准确的表征,因此往往通过采取跟踪其运动轨迹的方式进行判断。如今,以上两个小方向的研究仍面临着严峻的挑战,远不能满足实际应用的需求。针对这些问题,本文通过开发新的深度卷积神经网络架构来解决高级语义信息抽取的问题。另外,传统用来描述人体姿态和行为的特征难以抵抗噪声,以及视角的变化。本因此,文通过改善传统的训练方法来增强模型的鲁棒性,改善网络对噪声、遮挡和视角变化的抵抗能力。在视频分析领域,人体行为识别的研究逐渐成为备受关注。它具有广泛的应用和很大的实际意义。可以看出,大多数算法利用具有先验知识的深度卷积神经网络完成用于行为分类的视频序列的时空域特征的提取。在本文中,针对视频行为动作的类内类间变化太大,视频中复杂的环境背景因素(环境的变化,镜头的抖动等)的影响,高层次视觉的难以理解和表示等问题,在三个公共视频数据库上完成了对人体行为的分类,分类结果证明基于统计人体姿态信息的分类方法具有良好的效果。创新点主要包括:时空域特征的有效提取和描述,不同类别特征之间的融合(包括局部特征和全局特征融合、时序特征和空域特征的融合),基于多核支持向量机人体行为识别等。