论文部分内容阅读
随着现代信息技术的发展,视频信息获取设备得到广泛应用。基于图像、视频和骨架等数据集的计算机视觉研究得到快速发展。特别基于深度学习方法的人体动作识别逐渐成为计算机视觉领域的研究热点,在自动驾驶、手势控制和人机交互等领域具有广泛的应用价值。基于骨架数据集的人体动作识别相比于视频图像人体行为识别方法鲁棒性强,不受光照、遮挡和背景颜色混入等因素影响。越来越多的研究者投入到基于人体骨架数据的动作识别当中并取得了显著的成果。本文基于深度学习的人体骨架数据提出三种不同的模型:基于双流卷积神经网络的网络模型、基于卷积和循环神经网络相结合的模型和基于多流卷积神经网络的模型。(1)针对传统卷积神经网络模型动作信息提取不充分的问题,本文根据双流结构思想,提出基于双流卷积神经网络的人体骨架动作识别网络模型。原始骨架序列作为一支流的输入数据,注意力机制增强骨架序列或骨架时域差分序列作为另一支流的输入数据。双流卷积神经网络从两支流输入数据中充分提取动作特征信息,并选择合适的融合方式进行特征融合,证明双流特征融合的卷积网络模型对于检测结果的提升具有很大的帮助。(2)针对循环神经网络过度关注骨架的时间依赖关系,但对空间结构的骨架信息提取不充分的问题,采用循环神经网络和卷积神经网络相结合的方法,提出基于卷积和循环神经网络相结合的人体骨架动作识别网络模型。时间模块采用长短期记忆(LSTM)神经从整体、局部和细节三个分支提取时序特征,空间模块由卷积神经网络构成提取空间特征。成功解决了空间信息特征提取不充分的问题。(3)针对人体骨架序列的时空共现性信息特征提取不充分问题,本文采用时域差分和空域差分的方法对骨架时空特征进行描述。结合图卷积网络对卷积核的设置方式,提出基于多流卷积神经网络的人体骨架动作识别模型。此模型以经典的分层共现网络模型为基础,首先对骨架动作进行新型建模,然后对网络模型进行多支流设计和特征融合方式选择。每一支流的卷积神经网络从原始骨架数据、时域差分和空域差分数据中分别提取骨架动作的时间特征信息、空间特征信息和时空共现特征信息,并选择合适的融合方式进行特征融合。针对以上三种模型分别在骨架数据集上进行验证,通过大量实验分析并与先进的网络模型对比,充分证明模型的有效性和先进性。