论文部分内容阅读
近年来,随着高清视频设备技术升级且应用广泛,行为识别技术在公共安防、智能家庭和交互游戏等众多领域得以实施与应用,同时也让行为识别技术的研究获得进一步的提升空间。传统的行为识别算法通常采用手动设计特征提取方式,例如三维建模、模板序列匹配等方法。虽然传统方法的识别率尚可接受,但其工作量大,手动特征提取方式设计复杂,鲁棒性不高。此外,真实场景中多存在遮挡、光照、相机视角变化及运动干扰等因素,传统方法虽适用于简单场景下行为识别,但在真实场景中识别困难,准确性受限。本文旨在研究视频图像序列与骨架信息相融合的行为识别方法,根据图像序列特征与骨架序列特征的不同特性分别采用不同的深度神经网络,并针对不同融合方法提出了两种网络模型。(1)研究了基于姿态的行为识别方法。利用基于关节亲和域算法的姿态估计方法对人体模型进行分割并提取关节点信息,通过采用分支结构的卷积神经网络对不同部位的光流信息和外貌特征进行学习和训练,然后对网络提取到的特征采用动态与静态特征聚合的方式获取视频序列的时空特征,并对特征进行分类预测。(2)研究了基于骨架信息与姿态信息相融合的行为识别方法。针对骨架序列特征提取,实现了基于循环神经网络和基于图卷积网络两种特征提取方法。对基于骨架信息和姿态信息相融合的行为识别方法提出了两种模型:第一种模型为基于姿态的卷积神经网络与基于骨架的循环神经网络相结合;第二种模型为基于姿态的卷积神经网络与基于骨架的图卷积网络相结合。两种模型均以骨架序列和视频序列作为输入,通过网络模型获取具有时空信息的特征,并对特征进行分类预测,对不同网络的预测结果进行融合,得到最终分类预测结果。通过实验验证,基于第二种模型的方法具有更高的准确率和更好的性能。