论文部分内容阅读
近年来,随着智能监控系统的广泛应用以及计算机视觉技术的不断发展,群组行为识别已经成为智能视频监控领域中的关键技术,对于公共安全、人机交互和视频分析等领域具有重要的研究意义。社会的快速发展,对有效防范大规模群组事件的发生提出了迫切要求,如何构建一个高效稳定的群组行为识别算法是解决该问题的关键。而在构建群组行为识别算法过程中依然存在几个核心问题需要亟待解决。其一,提高网络运行速度是保障智能视频监控系统实时性的核心问题;其二,交互关系建模是影响群组行为识别精度的核心问题;其三,综合利用多线索特征是全面提高群组行为识别性能的核心问题。本文针对上述三个问题进行重点研究,并做出以下几点贡献:(1)网络运行速度慢是制约智能监控系统实时性的核心问题,本文提出一种高效的C3D网络(Efficient 3D Convolutional,EC3D)模型,提高了时空特征提取阶段的网络运行速度。针对C3D网络参数多、训练速度慢的问题,本文从降低参数量的角度入手,将C3D网络中7*7*3的时空卷积分解为7*7*1的空间卷积和1*1*3的时间卷积,每个卷积核的参数量由原来的7*7*3=147个,变为7*7*1+1*1*3=52个,参数量减少了64.6%。通过实验对比EC3D与C3D的网络运行速度发现,在相同时间内EC3D能够处理的数据量约为C3D的5倍,证明了本文针对C3D的改进是有效的。从而保证了EC3D在进行时空特征提取时能够处理更多的数据。(2)交互关系建模是影响群组行为识别精度的核心问题,本文提出了一种基于EC3D与交互关系建模的群组行为识别方法,通过构建群组无向图挖掘群组内部人与人之间的相互影响。首先,利用EC3D提取每组视频帧的单人时空特征;然后,根据单人时空特征和位置信息构建群组成员之间的交互关系无向图模型;其中,无向图顶点为群组成员,顶点之间的连线表示双方交互关系,连线粗细表示彼此关系的强弱;再后,利用图卷积网络(Graph Convolution Network,GCN)对该交互关系无向图进行动态维护,并获得交互关系特征实现群组行为分类。通过实验证明,基于交互关系特征的识别结果能够有效弥补未考虑交互关系方法中的不足,从而使群组行为识别精度得到提升。(3)多线索特征综合利用是提高群组行为识别精度的核心问题。本文将整体网络架构设计为分层模式,分别基于不同特征进行群组行为识别。第一层网络基于上述交互关系特征进行群组行为预识别,另一层网络基于EC3D网络提取全局场景时空特征,构建另一条群组行为预识别通道。针对上述两层网络的Softmax分类器在识别过程中呈现的性能优劣动态变化,本文采用多分类器权重自适应决策融合算法,将两个分类结果进行加权融合,做出最终决策。其基本思想是:基于K-最近邻算法准则,通过计算测试样本与训练样本之间的聚类相似程度,确定测试样本的有效邻域,并根据不同分类器在有效邻域中的分类准确率,给不同分类器分配权重,然后对不同分类器的输出结果进行加权融合,实现复杂场景下的群组行为识别。为了验证本文算法的有效性,在CAD(Collective Activity Dataset)和CAE(Collective Activity Extended Dataset)两个公开群组行为识别数据集上做了大量实验,平均识别精度分别达到了91.4%和97.9%,与当前流行识别方法相比表现出了较好性能。因此,证明了本文所提出的基于EC3D与交互关系建模方法在群组行为识别过程中的有效性和可行性。