论文部分内容阅读
视频人体行为识别,也简称为视频行为识别,是指从视频中识别特定人类对象的具体动作。人类行为丰富多样,且贯穿于生产和生活中。对视频中的人类行为进行识别,可以有效增进对视频内容的理解。识别所提供的高层语义信息,可以运用到视频监控、智能运动和行为预警等具体的应用中,有着很大的价值。视频中进行行为识别的关键信息是运动对象以及运动的主体,大部分情况之下关键信息的信息量只占视频帧的信息量的一小部分,通过凸显动作关键信息而忽视其他无关信息,能大大提高行为识别的效率和精度。受此启发,近年来不少研究者结合深度学习和注意力机制,把其应用在行为/动作识别系统上。利用注意力机制,可以在空间域上制造出注意力各不相同的关注点,从而来引导计算机集中分析与行为相关的视觉信息。然而,在实际中,用于训练深度网络的视频行为数据有限,而相关动作区域的其他特征变化显著。因此,在使用自由形式的注意掩码来实现注意力机制时,往往会因为过度拟合导致产生注意力分散的情况,从而削弱了注意力机制对动作识别所带来的帮助。针对上述的问题,本文提出了一种l2,1范数的组稀疏性正则化方法,该方法依据人类的注意力机制在生物学和认知学所呈现的局部关注的特点,通过在注意力掩码的区域上增加块状结构稀疏性的先验,使得掩码具有空间结构的约束,从而让注意力能聚焦于行为关键部位避免其产生分散现象,并根据关键部位来完成对行为的识别。本文依据结构化的注意力模块,提出了基于结构化注意力机制的卷积循环网络以进行动作识别。该网络以卷积网络和循环网络作为主体。卷积神经网络负责对视频每一帧的空域特征进行提取,循环神经网络则利用视频帧之间的连续信息,对整个视频进行行为的识别。引进的结构化的注意力机制能使得模型集中关注关键特征区域,这改善了模型的泛化能力并有效提高模型行为识别效率。本文所提出的方法在两个基准数据集上进行了实验,实验结果表明,该方法可以显着提高注意力掩码对关键运动区域关注的准确性,从而提高行为识别的性能。