论文部分内容阅读
鲁棒的动作识别,特别是人体动作识别,是在计算机视觉和人工智能系统中的一项基本功能。由于不受背景、灯光等变化的影响,对视角变化的鲁棒性更高等潜在优势,基于3D骨架的无监督动作识别已经成为计算机视觉中的重要研究课题,多年来研究人员提出了许多优秀的方法。这些方法中有的使用监督学习的方式,有些使用半监督学习和无监督学习的方式。当前基于骨架的监督学习和半监督学习的动作识别算法在实验数据集上已经取得了很好的性能,但是这些基于监督学习和半监督学习的算法非常依赖于监督,以及大量的训练实例和标签。而大规模数据集的标签的获得是十分昂贵和困难的,训练一个好的3D动作识别特征需要大量标记的骨架数据,这比获取大量标记的RGB视频要困难的多。此外,对于动作识别任务缺少大规模的有标注的数据集进行监督学习和半监督学习的训练任务,针对这一主要缺点,本文提出了两种基于骨架的无监督学习的动作识别方法。本文通过对骨架数据的特征表示以及动作识别算法进行了深入研究,提出了两种基于骨架的无监督学习的动作识别算法新模型。通过实验验证了其有效性,并且设计并实现了一套完整的基于监控摄像头的动作识别系统。本文的主要工作和创新点如下:1.Transformer是基于自注意力机制的,可以捕获长时序依赖关系。本文受到视觉Transformer模型的启发,在Transformer模型的基础上充分地结合了人体运动的特点,设计了一种基于上下文特征重构的无监督动作识别模型来全面地模拟每一帧内的人体骨架空间关系以及帧间的时间相关性。遮盖动作序列中的部分骨架帧,在自编码器中对数据样本编码成特征再解码重构,测试时使用KNN聚类,将动作类别归类为训练集中提取的最相似的特征所属的类别。通过这种无监督的训练方式,不需要提供标签进行训练,并且在具有挑战性的NTU RGB+D 60和NTU RGB+D 120公开数据集上的实验表明,本文的方法可以显著提高无监督学习动作识别的性能。2.对比学习属于无监督学习的另一种方式,之前的基于对比学习动作识别模型主要关注点在于通过增强对比学习的样本,从不同的输入骨架中学习动作序列的时序特征。而本文为了细粒度的捕获骨架序列特有的空间特征和时间特征,提出了基于对比学习的多尺度模型。它有两点优势,对骨架的空间位置应用多尺度,不仅可以捕捉单个关键点特征,更进一步可以捕捉到整个关节运动的特征。对骨架的时序序列应用多尺度,不仅可以捕获单帧与单帧之间的特征关系,更进一步地可以捕获多帧与多帧之间这种跨帧间的联系,使得学习到的特征对不同的运动速度具有鲁棒性。常规的骨架序列的输入,通常是将单帧的所有节点组合作为一个标记输入,可以更好地关注骨架与骨架之间的特征,即捕获动作序列的时序特征,而传统的这种输入方式往往忽视了骨架内部的空间信息,另一种方式是将动作序列中同一节点所有数据组合作为一个标记输入,这样可以更好的关注骨架内部的关键节点与关键节点之间空间上的关系。本文的创新点在于通过组合两种骨架序列的输入,增加了对比学习模型中具有相同语义内容样本的表示方式,间接增加了对比学习的难度,同时让模型不仅仅关注时序信息,而是能够更加全方位并且均衡的捕获骨架序列的时空特征。在具有挑战性的NTU RGB+D 60和NTU RGB+D 120公开数据集中,本文提出的无监督模型与在此之前的方法相比达到了最优的性能。3.集成上述算法,本文设计并实现了一套完整的基于监控摄像头的动作识别系统,该系统主要由视频显示模块、相机定位模块、动作识别算法执行模块组成。