论文部分内容阅读
随着互联网技术和多媒体技术的发展,视频在人们生活中的应用场景越来越广泛。随之而来的,不加监管,肆意传播的不良视频内容也会对大众尤其是青少年产生恶劣的影响。因此,对于视频内容的甄别具有重要的社会意义和研究价值。近年来,由于基于深度神经网络的深度学习技术取得突破性进展,深度学习成为处理视频语义分析的主要手段。另一方面,由于新一代高效率视频编码技术HEVC的发展,对视频的压缩可以在达到更高压缩率的同时保留更多的视频信息。基于此,本文以深度神经网络为基础,提出了一种基于视频HEVC压缩域信息的视频内容识别方法。本文首先回顾了近年来视频语义分析的相关研究,然后介绍了深度神经网络模型相关技术,为之后该技术的运用奠定理论基础。针对基于深度学习的视频动作识别研究,本文主要做了两个方面的工作。在视频的非压缩域,研究了几种常用的识别方法。包括基于单帧图像的二维卷积网络、基于多帧融合的三维卷积网络、递归神经网络和基于光流信息的双流神经网络。对模型的理论研究和仿真实现结果表明,基于光流的双流神经网络手动提取光流表征视频的时域信息,并将时空域上的分类结果进行融合,取得了最佳的分类效果。在视频的压缩域,在了解HEVC的基本结构和关键技术的基础上,提取帧间运动矢量表征视频的运动信息。在此基础上,使用矢量中值滤波方法滤除运动矢量中的噪声,使用RANSAC算法对全局运动模型进行拟合,并对运动矢量进行运动补偿。最后使用双流神经网络对处理后的运动矢量进行学习,最终生成的视频动作识别模型取得了预期的识别效果。论文的最后分析总结了本文的工作,对后续的研究方向和要点进行了展望。