论文部分内容阅读
视频动作识别是指视频中人物动作的识别,它是解决视频监控、人机交互、视频情感分析等问题的基础,也是深度学习研究的热门领域。随着视频动作识别需求的日益增长,如何构建一个高效快捷的大规模视频动作识别框架、设计一个具有更好效果的视频动作识别模型在现阶段显得尤为重要,而且这两种情况至今都没有统一的解决方案。针对以上的两种问题,本文进行了深入的研究,实现了基于远程GPU调用的分布式深度学习系统,提出了改进的视频动作识别模型。最终利用分布式深度学习系统训练改进的视频动作识别模型分别验证两者的可行性和有效性。本文的主要研究内容如下:1.利用API重定向的虚拟化方法构建远程GPU调用,并在此基础上实现深度神经网络的加速训练。在ZeroMQ构建的分布式系统上实现多个GPU远程调用,形成基于多个GPU远程调用的分布式深度学习系统,并在深度学习库cuDNN、P2P、网络通信等方面实现改进。这种方法构建的分布式深度学习系统可以用来做大规模视频动作识别框架,其最大的好处为单机多GPU的代码不需要修改或者只需要少量修改就可以实现快速的分布式拓展。2.改进传统的视频动作方法,设计不需要手动设计特征的新模型iRCN。该模型利用全局的采样特征,将视频分成不同的时间阶段进行图片采样。利用3D_CNN提取视频每个阶段的运动特征。然后利用biLSTM获得所有运动特征在时间域上的相关性,最后把Softmax作为损失函数。最终iRCN模型在数据集UCF-101和HDMB-51上分别获得85.6%和56.6%的正确率。这是目前为止,在所有不借助手动设计特征的视频动作识别方法中最高的正确率。3.在分布式深度学习系统上可以实现数据并行和模型并行的快速分布式拓展。利用分布式深度学习系统对改进的视频动作识别模型进行有效的训练,训练内容主要包括两个方面,分别为基于改进MapReduce的视频特征提取和完整模型的分布式训练。分布式深度学习系统可以有效的提高视频特征的提取速度,实验同时可以验证分布式深度学习系统和改进视频动作识別模型的可行性和有效性。最后利用模型并行的分布式拓展说明分布式深度学习系统的优缺点。