论文部分内容阅读
由于视频识别在视频监控、视频搜索、视频推荐等实际视频理解应用中的重要作用,受到了计算机视觉领域的广泛关注。近年来,随着互联网和移动设备的快速发展,视频数据呈现爆炸式增长,巨大的视频信息远远超过了人工处理的能力,因此视频内容理解技术被工业界广泛需求,视频识别也俨然成为当今最火热的研究方向之一。本论文旨在通过深度学习技术,围绕视频数据设计算法以达到视频理解领域的国际先进水平。对于未剪辑的长视频,其中存在着大量与识别目标无关的冗余帧,这给识别带来了巨大挑战,为此本文提出一种基于多智能体强化学习的帧采样框架,用于采样长视频中的关键帧进而有效地提升视频识别精度,我们的方法在YouTube Birds和YouTube Cars数据集上实现了目前的国际最先进水平,并且仅使用单模型与使用多模态多模型融合的ActivityNet v1.3竞赛冠军性能相当。同时,对于已经根据内容剪辑好的短视频,识别精度与速度的权衡是目前研究的热点,不同于许多工作致力于设计轻量模型,我们从视频间本身的差异性出发,提出一种针对视频识别的动态推理框架,在多个权威视频数据集上,我们的方法能在维持识别精度不变的情况下大大提升计算效率,这展现了我们方法的优越性。