论文部分内容阅读
本论文研究的主要内容是视频中文字信息的检测、提取与识别技术,它是基于内容的视频理解和检索的重要组成部分。作为一个有着广泛应用背景的研究领域,视频文字的检测与提取(Text Detection and Extraction,简称TDE)吸引了大批研究学者的参与。本文在前人工作的基础上,通过对视频分段以及视频数据多级结构的分析,重点研究了非压缩域和压缩域视频中文字的检测与提取方法,设计并实现了一个完整的基于边缘检测—投影的视频TDE系统,并期望在此基础上增强对算法的理解以及对某些问题的求解作出改进。 视频数据包含丰富的语义内容,但同时具有复杂的时空维信息,本文首先对视频数据的分段及多级结构抽象作了分析,进而针对基于内容的视频检索中的若干关键技术(镜头变换检测、关键帧提取和场景分割)进行重点研究和分析。这部分内容是视频文字检测与提取(TDE)算法研究的基础。 在非压缩域视频中文字的检测与提取(TDE)方面,本文着重研究了文字事件检测、候选文字区域的检测与分割、非文字区域滤除、单字分割以及视频文字识别(Video OCR)等内容。针对每种方法,本文都给出了算法分析和实现步骤,并指出其适用范围。在这一部分,本文还研究和实现了一种基于小波变换和形态学操作的TDE算法,并给出实验结果与分析。 在压缩域视频中文字的检测与提取方面,本文主要研究了基于DC图像序列和DCT块的TDE算法。作为基础内容,首先介绍了DCT变换的基本思想以及MPEG视频压缩编码标准。然后详细研究了DC图像的获取方法并给出实验结果,同时对一种基于DCT块的TDE算法做了改进和实验验证。最后,本文还分析了一种基于视频各分量信息抽取、压缩域和空间域结合的文字检测与提取(TDE)方法。 通过对各种边缘检测算法的实验分析,本文设计和实现了一种基于边缘检测一投影的视频TDE实验系统。针对每个关键算法都作了详尽分析和实验结果评价,并指出该算法的优缺点。结果表明,该实验系统取得了较好的文字提取效果。最后,本文还指出了TDE算法研究的发展方向及在视频理解与检索中的应用前景。