论文部分内容阅读
视频文本能够提供重要的视频语义信息以供视频检索和视频摘要,因此获取视频文本对于视频语义分析具有重要作用。有效地检测出视频中的文本无疑是其中一项关键的技术。文本检测最主要的困难来自复杂背景的存在。通过文本检测方法减小复杂背景的干扰,检测出视频文本图像是本文主要解决的问题。基于静态图像的文字检测和识别方法基本上都不能很好地解决复杂背景带来的干扰。针对视频中文本背景复杂、干扰强烈等问题,在对前人相关工作进行分析、研究的基础上,本文提出一种基于多帧融合的视频文本检测方法。该方法首先采用信息熵和角点信息分析相结合的方法对视频进行镜头分割,将视频分割成较小的语义单位,提高系统处理效率;然后,在基于静态图像检测到的文本区域的基础上,利用多帧验证方法确定文本区域以及文本所在的帧序列;最后,对帧序列中的文本块进行多帧融合,降低文字区域的背景复杂度,以减小后续文本定位、文本提取等过程的处理难度。本文提出并实现的基于多帧融合的文本检测方法在视频文本提取系统中得到成功的应用,使该系统完整地实现了从输入视频到产生OCR识别结果的总体流程。实验结果表明,本文提出的文本检测方法具有较高的准确率和处理效率。