论文部分内容阅读
近年来,随着计算机技术、多媒体技术和网络技术的不断发展,图像和视频资源日益丰富,从这些海量图像、视频中获取感兴趣的信息已经成为当前多媒体信息技术研究的热点。图像、视频中的文字包含丰富的语义信息,是理解图像、视频内容的重要线索,提取和识别这种图像、视频中的文字对于图像理解、视频内容分析、基于内容的图像和视频检索等领域具有重要意义。由于图像、视频中的文字通常叠加在复杂的背景之上,背景的干扰使得现有OCR(Optical CharacterRecognition)技术难以获得较好的识别结果,因而如何从图像、视频复杂场景中检测识别文字成为一个重要的研究课题。本文以图像、视频复杂场景为研究背景,围绕在复杂场景中文字检测和识别进行研究,根据文字纹理特征,研究了复杂背景中文字的检测、复杂场景中重叠文本的检测和识别、OCR识别结果的校对以及海量视频文本检测识别等问题。概括起来,本文所取得的主要研究成果包括:首先提出了一种基于Gabor和SVM的复杂背景中文字检测方法,通过不同方向尺度的Gabor滤波器得到表示中文字符横、竖、撇、捺四个方向的纹理图像,使用SVM分类器对纹理图像进行训练,通过构建一个SVM分类网络来得到最终的文字区域。实验结果表明,该方法对复杂背景下中文字符的检测具有较好的效果。其次提出了一种利用深度学习算法进行文字区域定位的方法,利用Gabor滤波器提取文字区域的纹理特征,然后使用DBN网络进行分类,由于DBN网络对高维特征向量具有很强的提取特征和分类能力,因此能够用来区分文字区域和背景区域。实验结果表明,深度学习网络具有较高的分类准确性,效果要好于传统的神经网络、SVM等方法。接着针对前面所提出的方法在检测复杂场景中重叠文本时受背景干扰比较大的问题,提出了一种复杂场景中重叠文本检测和识别的方法。首先利用聚类的方法将复杂场景图像转换成多个具有单一背景的层图像,在每一个层图像中使用连通分量分析方法,得到该层图像中的候选文本连通分量,采用级联Adaboost分类器根据文本区域的特征剔除非文本连通分量,再用OCR包对文本连通分量进行识别,最后利用图像层之间的关系对识别结果进行验证。对于复杂场景下重叠文本的识别,该方法明显优于其他方法。然后提出了一种基于Google的文字识别结果校对方法,由于很多字符、文字具有相似性,OCR软件识别过程会产生一些错误,现有的OCR识别结果校对方法主要是利用自然语言规律统计大量的语料库进行语法判断。本文提出了一种基于Google的OCR识别结果校对方法,将传统的基于N-Gram语料库的方法和Google知识库相结合,利用Google知识库来不断的丰富传统的语料库,有效地解决了传统N-Gram方法在字典词汇量有限,对新词、专有名词无法校对的问题。该方法实用性比较强,有效地提高了自然场景图像中OCR的识别率。最后实现了一个基于云计算架构的视频文本检测和识别系统平台,随着大数据时代的到来,现有的文字识别方法遇到了很大的挑战,很难快速的应用到大数据中进行视频文本内容的识别。本文通过连接大量的计算机搭建一个云计算网络,使用MapReduce分布模型实现了视频关键帧的提取,文本检测与识别,识别结果的校对等功能,构建了一个基于云的海量视频文本识别平台,解决了海量视频的文本内容识别问题。另外,本文还分析了当前图像视频复杂场景中文字识别研究中存在的问题,指出了进一步的研究方向。