论文部分内容阅读
本文研究视频动作检测,旨在提出一个高检测准确率的动作检测方法。受近年卷积神经网络(Convolutional Neural Networks,CNNs)在图像识别和视频识别领域取得实质性进展的启发,本文动作检测方法也基于卷积神经网络构建和实现。本文动作检测方法的工作流程分三个阶段:第一阶段在帧层面运用Faster R-CNN网络获取多个兴趣区域,同时使用该网络分别提取兴趣区域的表观和动作特征;第二阶段在帧层面使用支持向量机(Support Vector Machine,SVM)对兴趣区域进行分类;第三阶段在时序上将分类得分值高的兴趣区域连接并形成竞选管道,再将综合得分最高的竞选管道作为视频最终的动作检测结果。为验证本动作检测方法的有效性,以及检测准确率更高,我们在JHMDB和UCF Sports两个数据集上分别做了实验,与当前最好的运用卷积神经网络构建的动作检测方法进行对比。在覆盖阈值为0.5时,本动作检测方法在两个数据集上的动作检测准确率分别达到60.86%和80.12%,分别提高了7.5和4.3个百分点,检测准确率有了显著提升。本文也给出覆盖阈值为0.6时在这两个数据集上的检测准确率,分别为56.12%和80.12%,仍然比当前最好的方法在取覆盖阈值为0.5时的检测准确率要高,另外本文方法在UCF Sports上的检测准确率仍取得了80.12%,这说明本文方法在要求定位更准确的条件下仍能取得较高的检测准确率。检测准确率更高意味着动作分类误差更小,同时动作定位更精确、检测效果更好。实验结果表明本动作检测方法有效性好,在视频动作检测任务中检测准确率更高,本文提出的动作检测方法具有一定的研究和应用价值。