论文部分内容阅读
由于近年来人工智能的飞速发展,视频行为识别的应用场景越来越广泛,这一项技术也被国内外学者重点关注和研究。然而现有的视频行为识别研究使用的原始视频的RGB图像信息场景复杂且存在遮挡问题,并且随着视频场景的复杂程度越来越高,人体运动的交互也日渐增加,单一特征已经无法完整描述视频的全部运动信息。另外,研究者通常描述视频信息时往往只使用单一动作类,忽略了动作类组中存在的共享特征,但在许多不同运动类别中人的形态都存在相似性,极容易混淆,从而影响行为识别的准确率。为了解决上述问题,本文围绕多种特征并行处理融合和多粒度特征细化这两方面展开研究,提出了基于并行卷积循环神经网络的行为识别方法和基于并行多粒度特征细化网络的行为识别方法,从两种角度来进行行为识别,主要内容如下:1.针对视频的单一特征对视频运动信息表达不足的问题,提出了基于并行卷积循环神经网络的特征融合行为识别。本方法将RGB图像特征和人体关节点骨架特征分别输入到并行卷积循环神经网络的CNN部分和RNN+LSTM部分,在特征提取后将两种特征连接到一个联合时空特征向量进行特征融合,最终进行行为识别。实验结果表明,本文方法在UCF101数据集上的行为识别准确率优于其他主流行为识别方法,验证了本方法在行为识别上的有效性。2.针对视频单一特征运动信息表达不足,以及单一动作类无法完整描述运动信息,动作类组中共享特征被忽略的问题,提出了基于并行多粒度特征细化网络的行为识别方法。本方法放宽了对行为识别的需求限制,将一个视频的运动信息用多个动作类标签来描述。我们通过三个动作类标签组得到三个动作类粒度的特征,整合后得到RGB图像特征和关节点骨架信息的精确特征融合后进行行为识别。本文在UCF101数据集上进行实验,准确率高于传统主流行为识别方法,证明了该方法在行为识别上是有效的。同时对比了本文的两种行为识别方法在UCF101数据集上的准确率,由于基于并行多粒度特征细化网络的行为识别方法在特征提取和细化上更为细致,所以该方法的准确率高出基于并行卷积循环神经网络的特征融合行为识别1.1%。