论文部分内容阅读
随着网络技术与物联网的迅速发展,当今的社会生活中每时每刻都在产生着海量的视频。虽然视频能够形象直观地表达信息,但其耗费的存储空间较多并且信息不具备结构性等特点,使得对它们的存储和检索相当困难。同时,现有视频压缩技术的研究进展已经远远跟不上视频数据的增长速度,这会导致视频存储代价越来越高。所以提出一种能够自动获取视频关键内容并节省存储空间的视频分析技术是当前亟待解决的问题。视频结构化技术是指将视频通过视频图像处理技术、文本分析技术等领域的算法提取出不同层次的关键信息,并对不同层次的关键信息进行相应的语义描述,最后通过视频标准化描述将关键的视频图像信息和对应的语义信息进行结构化存储,便于记录和检索视频的关键信息。本文结合了深度学习技术和传统算法,针对视频结构化技术中的部分关键技术进行研究,主要研究内容如下:(1)提出了一种结合了传统方法和深度学习的视频结构化方法。该方法主要涉及到了关键帧提取、目标检测、动作识别、场景识别、图像描述等技术,使得视频图像中的信息能够被有效的表达出来,并且能够对每一张图像生成相应的描述句,使得更便于存储和检索,极大地丰富了结构化信息的内容。(2)本文充分利用了视频中的运动目标信息,提出了一种基于运动目标信息的视频关键帧提取方法。该方法通过帧间差异、HSV空间颜色信息、运动矢量信息三者的加权融合来获取一个更为综合鲁棒的特征作为视频帧的特征指数,然后通过自适应阈值算法设定阈值对视频帧进行关键帧初选,最后通过目标检测技术对比初选关键帧的目标信息来选取出最终的关键帧。该方法充分利用了视频图像的目标信息,结合了深度学习技术,提供了一种新的关键帧提取方法。(3)优化了目标检测网络YOLOv3的结构,并提出了一种适用范围较广的目标检测效果增强方法。在网络结构方面,本文通过不同扩张率的扩张卷积对主干网络的特征图提取特征,使得特征层具有不同粒度的信息,能够更好地识别不同尺度地目标。在检测效果增强方面,本文通过提出的投影计数算法筛选出了检测力度不佳的感兴趣区域,然后使其中的目标能够尽可能匹配网络模型的最佳检测尺度,再次送入网络进行检测。综合多次检测结果,使结果更加可靠。