论文部分内容阅读
随着计算机技术、通信技术及多媒体技术的快速发展,移动互联网进一步普及,网络信息化不断升温,数字化进程被快速推进,使得网络视频的内容越来越丰富,包涵着越来越多的重要信息,大量的视频图像在网络上快速传播,网络视频的服务更快、更便捷,但也增加了新的安全隐患,对视频内容进行检索与安全监控变得更加必要。传统的基于关键词、标题的方法,一般采用人工方式进行编写,不仅效率低而且并不能准确的反映视频内容,要从海量的视频数据中快速、准确地查找和监控所需要的视频信息,需要理解视频的内容。视频字幕包含了丰富的高层语义信息,与视频语义有很强的相关性,是理解视频内容的重要线索。通常网络视频的分辨率较低,视频字幕嵌入在复杂图像背景中,成像存在噪声、模糊、透视、字体格式种类繁多等不利因素,由于背景的干扰,无法直接进行OCR识别,因此,从网络视频的复杂场景中自动检测、提取视频字幕能够对视频进行更深入的检索与安全监控,也可对视频字幕进行高效率的翻译,大大提升工作效率,节省人力。基于这个需求,本文设计实现了一个视频字幕定位识别系统,包含了视频字幕关键帧检测提取子系统和视频字幕提取子系统。先通过帧间直方图差值进行镜头分割,并综合考虑文字的各种统计特征,利用边缘密度特征从视频中检测、提取字幕帧,从而减少需要进行字幕定位的图像帧数。然后,利用Sobel边缘检测进行字幕区域的粗定位,再用形态学操作及连通域分析精确定位字幕区域。最后,利用NiBlack算法进行分割,提取出二值化后视频字幕,结合OCR软件进行识别,以便将这些视频字幕文本用于视频的检索和监控、视频字幕翻译等应用中。通过实验验证,系统能有效地提取出具有代表性的字幕关键帧,而且能够较准确的定位提取视频字幕,从而提高了 OCR字幕识别效率,本系统的开发对视频检索、视频编辑具有潜在的应用价值。