论文部分内容阅读
随着计算机视觉与深度学习理论的不断发展,基于深度学习的行为识别技术渐渐成为计算机视觉领域的重要研究方向之一,广泛地应用于诸如智能监控、人机交互等多个领域。其中,相比传统特征提取方法,卷积神经网络(Convolutional Neural Network,CNN)作为一种典型的深度学习模型在图像分类任务中取得了突破性进展,然而应用于视频中的行为识别模型仍然存在准确率较低、计算成本和模型存储较大等问题。因此,在深度学习的基础上,有效地识别视频中的行为具有广泛的研究价值与重要的研究意义。论文首先介绍了行人异常行为识别技术的研究背景及意义,分析了该技术国内外的研究现状,然后阐述了卷积神经网络理论基础以及基于深度学习的主流行为识别方法,对于该任务目前存在的问题和难点进行了分析,并依据行人异常行为识别中存在的问题,本文展开了以下两方面的工作和创新:(1)提出了基于深度可分离卷积的三维多纤维网络模型针对三维卷积神经网络(3D CNN)模型计算量较大的问题,本文在目前行为识别任务中表现优异的三维多纤维网络(3D Multi-fiber Network,3D MF-Net)中引入二维卷积神经网络(2D CNN)中常用的模型压缩方法。首先,在网络卷积层中加入深度可分离卷积(Depthwise Separable Convolution),采用基于深度可分离卷积的结构替换了其中计算成本较大的多纤维单元模块,它与原模型相比,能够有效降低计算成本;其次,借助空洞卷积(Dilated Convolutions,DC)在卷积核中注入空洞使其膨胀的思想,对网络中较大的卷积核进行空洞处理以达到减小计算量的目的;最后,通过权衡不同宽度乘数下模型复杂度与准确率的关系,使模型在效率和性能之间实现有效折中,最终实现了一种基于深度可分离卷积的三维多纤维网络模型(3D Multi-fiber Network Based on Depthwise Separable Convolution,3D DSMF-Net)。实验结果显示,该模型牺牲了较小精度的同时带来了计算量和参数量的大幅降低。(2)提出了基于注意力机制的三维自适应卷积神经网络模型针对在模型压缩过程中精度损失的问题,本文通过结合三维自适应卷积层与多尺度特征融合池化层两个模块,构建了基于注意力机制的三维自适应卷积神经网络模型(3D Adaptive Convolutional Neural Network Model Based on Attention Mechanism,3D ADNet-AM)来提高模型对于异常行为识别的有效性和鲁棒性。其中,三维自适应卷积层是将卷积核动态选择网络(Selective Kernel Networks,SKNet)中的选择性卷积单元扩展到三维,该模块通过根据输入信息自适应地调整卷积层感受野的大小,实现了对两个尺度时空信息的特征提取,并使用注意力机制(Attention Mechanism,AM)生成注意力矢量,作为这两类特征融合时的权重;多尺度特征融合池化层则通过对原始特征图(Feature Maps)进行3次不同尺度缩放后分别池化,并将输出特征按照级联的方式进行拼接,得到一个固定维度的特征图。通过与3D MF-Net模型进行对比,算法不仅减少了2.81G计算代价,而且提高了2.45%的Top-1精度,从而验证了本文算法对于网络性能有着明显的提升。