论文部分内容阅读
视频是随时间变化的连续画面,是重要的多媒体数据组织形式,对视频的理解与分析一直是计算机视觉的研究热点。行为识别是对短时间、有唯一确定标签的分割后的视频进行分类的研究,是视频理解领域必不可少的基础研究方向。视频作为随时间变化的序列,兼具空间与时间两个维度的信息,行为识别的研究,就是对时空建模方法的探索。早期的行为识别通过传统方法构建手工特征表达行为的时空特性。但由于视频数据复杂性高,传统方法的建模能力十分有限。随着近年来深度学习在图像识别和自然语言处理中取得的瞩目进展,通过深度学习仅提取空间或者时间信息之一的技术已逐渐趋向成熟。应用于行为识别的时空建模方法研究,既与这两方面的研究的成果有很大关联,又需要在现有成果的基础上做出对应的创新。行为识别研究的难点大体有如下方面:其一是数据输入成本。视频数据结构复杂,传输和运算的成本大;其二是算法精度要求。实际应用需要算法的高精度;其三是数据量与计算资源制约。实际应用场景往往面临训练数据有限、运算资源有限的问题。为了应对这三个方面的挑战,行为识别的研究可以大体上分为以下三个具体的方向来提高算法的识别能力。其一是特征输入层面,从繁杂的视频数据中提取出有效的特征表示方式,在输入端而非深度网络主体上进行优化来提升算法的性能,我们可以称之为预识别的研究;其二是算法模型层面,通过调整优化深度学习算法的网络结构,提出更为有效的时空建模方式来解耦视频场景内容,捕捉时间关联性特征来提升算法的性能,我们可以称之为识别方法的研究;其三是场景适配层面,结合实际运用场景,综合考虑数据特征,面向特定任务对算法模型进行二次适配增强其鲁棒性,发挥其在实际应用场景下的性能,从而我们可以称之为后识别的研究。本文分别在上述三个方面,对行为识别展开了系统全面的探索。在预识别研究中,本文就骨架和RGB视频两种主要输入模态分别进行了探索,因而共计四个研究方面。其主要研究内容和贡献如下:(1)提出了一种用于描述骨架运动的特征表示方法。骨架特征与传统的RGB输入不同,本来就具有很强的语义信息,所以相比RGB数据更容易提取出有效的特征表示。以往基于骨架的行为识别算法采用的特征虽然多样,但都是基于骨架坐标在时间维度上进行线性变换得到的。这样的特征表达相比初始空间坐标缺乏变化,容易在深度学习的过程中被覆盖。针对此问题,我们提出了面向骨架运动本征的旋转描述子。旋转描述子的特征表示完全与骨架关节点的位置无关,从而与原始的空间坐标信息有很好的正交性,且可以灵活便利地应用于各种深度学习模型构造多流网络提升现有算法的性能。旋转描述子具体有两种,旋转角度表示以及双向差分表示。旋转角度表示是一个在描述关节转动的特征时遵循三维旋转群约束,对关节运动的表示更为精确,通常可以得到更高的精度;双向差分表示则将三维旋转群约束松弛为线性变换,相比旋转角度表示具有更好的鲁棒性和较低的运算成本。(2)提出了一种拟合短时运动信息的输入特征增强方法。RGB数据复杂度高,稠密的数据采样带来极大的运算成本和输入输出成本,所以常见的深度学习算法都仅仅在视频序列中采集少量的样本进行时空建模。短时动态特征的加入对行为识别有很强的增强作用,但是短时动态特征的提取要求相当稠密的帧输入,在实际应用场景中对数据采集的质量和传输的速度都带来了很大挑战。人类可以根据行为的一些片段想象整个行为过程,我们提出一种动态特征生成器来模拟这种过程。动态生成器以稀疏采集的样本为输入,通过一个编码器-解码器结构,利用稀疏样本之间长时的运动特征估计出样本周边的短时运动特征。得到的短时运动特征可以作为特征层面的增强,灵活地强化各种现有行为识别算法。因此,短时特征估计模块是一种可以普遍适用于各种现有方法的特征增强手段,有提高识别精度、不需要额外输入、结构简单几乎不增加运算量以及可适用场景多的优点。(3)提出了一种在时空建模过程中增强前景特征的方法。时空建模问题中,因为视频中的前景是行为执行的主体,解耦视频的前景和背景是提升模型识别能力的一个关键性挑战。因为前景在整个视频帧的范围中通常占比较小,直接进行时空建模会造成背景部分的特征被过度建模反而影响行为识别的效果。而前景和背景的概念是相对的,只有在行为执行过程中才能够运用注意力机制,将动态的部分认定为前景并进行强化。所以,为了解决该问题,我们提出了一种全新的前景提取的策略。在时空建模的过程中,聚合特征的时间维度可以编码一个相对静止的背景,并用原始的特征减去这个背景进而得到前景。前景提取策略有两种具体的实现方式。在空间维度上我们设计了场景拆分模块,在通道维度上则以前景增强模块实现。综合二者,可以得到良好的时空建模性能提升。(4)提出了一种面向不规则数据和有限运算资源的时空建模方法。常见的时空建模算法都在理想情况下,基于规则数据,即类别间分布均匀、数据量充足的数据集上以充足的运算资源进行训练。这种情况下,遴选适合数据集特征的超参数就可以充分地发挥时空建模算法的性能,不需要特别将网络模块与数据特征进行适配。而实际应用场景下,待处理数据的类别分布很可能不均匀且规模有时也比较小,因而需要表现更为鲁棒的识别模型。针对这个问题,我们设计了一种可以灵活嵌入2D CNN主干(backbone)网络的二维渐进融合模块。该模块运用了一种称为变化抑制卷积的新型卷积方式,在时间和空间维度融合主干网络提取的空间特征,逐渐降低时间维度并减少网络的参数量。这样的网络结构约束了时空建模模块对特征语义的改变,可以更充分地利用预训练主干网络的分类能力。因而以这种模块构造的行为识别网络在小规模数据集上也能良好收敛,且对超参数不敏感,适合实际应用场景。