论文部分内容阅读
随着图像传感器技术的发展和高清摄像头的进一步普及,作为机器动态感知三维世界的“眼睛”,视频智能理解愈发受到关注。相比于单幅静态图像,视频流包含的运动信息更加丰富。基于视频流的人体动作识别是视频智能理解中的一项关键技术,本质上是对视频序列帧中有关人体行为的特征向量进行编码并分类的过程。近年来,深度学习的快速发展颠覆了传统视频人体动作识别技术,其能够自适应学习视频序列中的高层抽象特征。在进行人体动作识别时,相比于其它特征信息,姿态特征鲜明、简洁且受外观因素干扰程度小,且有研究工作显示基于深度神经网络的特征提取对于基于人体姿态估计的动作识别有着显著的效果。因此,本文以深度神经网络模型为手段,从人体姿态估计问题出发,基于人体姿态序列来识别行为动作并进行实验验证,具体研究内容如下:(1)提出了一种基于通道注意力与多尺度特征融合全卷积网络的自顶向下多人姿态估计方法,有效提高了复杂场景下多人姿态估计准确度和速度。在人体姿态估计网络对特征图进行下采样过程中,上层高分辨率信息会不断遗失。针对这一问题,在经典U型人体姿态估计网络的结构中嵌入了多尺度特征融合模块,使得网络中的低尺度特征也包含高分辨率信息,并且为了进一步突出多尺度融合特征图的关键通道信息,在特征融合模块中引入通道注意力机制。实验结果表明了基于通道注意力和特征融合的多人姿态估计算法的有效性和优越性。(2)提出了一种时域流与空域流并联的双流LSTM动作识别网络。对时域流网络分支中的原LSTM网络模型进行拓展,引入时域全局上下文注意力单元使网络有选择性地聚焦于具有关键动态信息的骨架帧;在空域流网络分支的主干LSTM网络中,加入了具有骨架关键点选择机制的空间注意力模块,使得网络能自适应地分配权重给不同骨架关键点,从而能选择性地关注用于区分不同动作行为的重要关键点。实验结果表明了双流LSTM网络模型的有效性和优越性。(3)提出了一种联合关键点和肢体图卷积过程的ALT-GCN网络模型。通过定义肢体边的邻域关系构建了一套不同于骨架关键点图卷积的运算过程,以更好地利用骨架肢体信息。采用可自适应学习图拓扑结构的图卷积(ALT-GCN)模块来替换基础的时空图卷积(ST-GCN)模块,使得网络随着层级不断深入可以学习得到更优的拓扑图连接,并优化图卷积层次结构,能更好地识别不同动作种类,实验结果验证了ALT-GCN网络模型的有效性和优越性。综上所述,本文通过研究基于人体姿态序列的视频动作识别关键技术,对从人体姿态估计至人体姿态特征编码和分类等难点问题,提出了有效的解决方案,从而为视频人体动作识别算法的研究和实际应用提供了有效的解决思路。