论文部分内容阅读
基于视频的人体行为识别在智能监控系统、基于内容的视频检索、人机交互等领域有着较为广阔的应用前景,是计算机视觉领域的前沿课题,也是一项十分具有挑战性的课题。本文从传统机器学习算法和深度学习算法两个方向对基于视频的人体行为识别展开了研究,本文主要研究内容如下:1.快速iDT算法。iDT算法是目前行为识别效果最好的经典机器学习算法,因此本文在对基于机器学习的行为识别算法的研究中采用iDT算法框架作为基本的算法框架。但是iDT算法需要提取密集光流,而密集光流的计算又十分耗时。因此,为了提高算法的处理速度,本文选用了计算耗时远小于密集光流且性能接近于密集光流的一种运动描述符,即基于视频压缩的运动描述符(MPEG Flow),以此替换iDT算法中的密集光流。2.基于时域分割的深度聚合网络。目前深度卷积网络在行为识别任务中仍然面临两个问题:1)网络不能对具有长时域结构的行为进行有效识别;2)网络无法有效描述行为子特征之间的相关性。针对以上问题,本文提出了一种端到端的双流网络,名为基于时域分割的深度聚合网络。网络主要由两个子网络组成,基于时域分割的深度网络与深度聚合网络。基于时域分割的深度网络,其作用主要是解决问题一。因为它采用了一种基于时域分割的视频帧采样策略,这使得它可以得到对整个视频片段覆盖较为充分的若干个稀疏视频子序列,每个子序列再通过一个双流网络进行特征提取。深度聚合网络,其作用主要是解决问题二。深度聚合网络的实现主要是引入了NetVLAD作为特征聚合层,对比最大池化、平均池化等其他聚合方式,NetVLAD更加专注于局部特征之间的联系。3.对基于时域分割的深度聚合网络的改进。本文尝试对算法进行两方面的改进,分别是引入注意力机制以及损失函数的改进。时空自注意力机制的引入主要是受到非局部神经网络(Non-local Neural Networks)的启发,引入该网络的目的是提升NetVLAD对于视频重要时空特性的捕获能力。之所以引入包含中心损失的联合损失函数,是因为该联合损失函数在另一种分类任务,人脸识别中发挥了积极作用,通过该联合损失函数可以学习到区分性更强的特征。