论文部分内容阅读
行为识别是计算机视觉领域重要的课题之一,能够应用于安防监控、异常事件检测、视频信息分类与检索、人机交互等众多领域,因此拥有较为广泛的应用前景。在互联网上视频数据爆炸式增长的今天,如何有效地理解和分析视频数据至关重要。传统的人工特征提取方法在应对海量视频数据有诸多局限性,如何高效分析大规模视频数据的问题仍然有待解决。随着计算机硬件水平不断提高和深度学习的快速兴起,深度学习方法尤其是深度卷积神经网络被应用于各类计算机视觉任务中,并获得一系列显著的成果。目前虽然深度卷积神经网络能够在二维图像的检测识别等任务中有着优异的效果,但是在行为识别任务里表现一般。这是因为视频序列行为识别使用了复杂程度更高的三维时空信息。因此,如何在视频中使用卷积神经网络进行高效准确地识别人体行为具有重要的研究意义。本文分析了几种不同的行为识别算法中的特征提取方法,并重点阐述基于深度学习的特征提取方法。由于传统的2D卷积存在只处理单帧图像,导致损失了图像的时序信息的问题,3D卷积在特征提取时引入时间维度,在空间维度和时间维度上同时进行特征计算。尽管3D卷积神经网络比2D卷积神经网络更适用于视频分析,但是3D卷积在实际应用中存在诸多问题,例如3D卷积具有更多的参数,但缺少像2D卷积网络一样庞大的训练集,这导致3D卷积神经网络的识别效果不佳。因此,本文在SENet网络结构基础上提出了一种新的3D深度残差神经网络以解决这个问题。本文所提出的网络结构通过残差学习和加强层间的特征传递来减轻因为网络层数过深导致的模型退化,并能够在一定程度上减少参数。引入SENet的结构,通过显示建立通道间依赖来提高通道间的特征联系,从而提高了模型的表征能力。在实验中,本文在UCF-101行为数据集及HMDB-51行为数据集上进行实验。对于两个数据集中的视频样本截取连续16帧RGB图像作为输入,并通过随机裁剪等方法扩充数据集,采用端对端的训练过程得到行为分类器。实验结果表明改进的3D残差神经网络能够有效提高识别准确度。最后使用Kinetics数据集对模型进行预训练,在UCF-101数据集和HMDB-51数据集上都具有较为优异的识别效果,超过大部分仅使用RGB图像,没有使用外部计算光流图的行为识别算法。验证了本文提出的改进的3D深度残差神经网络的人体行为识别算法具有良好的有效性。