论文部分内容阅读
从人们最开始提出相应的概念到现在,OCR(Optical Character Recognition,光学字符识别)技术经历了近一个世纪的发展,现在,对于背景简单的文本,可高效准确的将其转化成可为计算机读懂的电子文本。随着技术发展的越来越成熟,应用面越来越广,市场需求越来越大,各种文字识别的软件和工具相继推出。然而,经典的文字识别技术只针对通过扫描得到的背景简单、分辨率和对比度高的图像有理想的识别率。但是,现实生活中有很多带有文字的场景,比如路牌、车站牌、店名、商品简介等,想要获得这些处于自然场景中的文字,依靠扫描的方式显然并不太实际。目前,虽然有很多针对自然场景中文本识别的研究,但其结果并不如人们期望中的理想。一般通过拍摄设备获得的图片分为带有自然场景的图片和纯文字图片。由于自然场景的复杂性,造成了处于其中的文字背景相当复杂,还由于拍摄地点、拍摄角度和光线强弱等各种原因造成的文字的字体、大小、对比度以及亮度等不均匀,增大了定位文本区域的难度,直接影响了文字区域定位的准确性和字符识别的结果。本文主要研究的是在硬件设备有限的条件下掌握各种场景下图像中的文字信息。如何有效的从简单的拍摄设备获得的复杂背景彩色图像中提取和识别文字有着重要的意义,对它的研究不仅丰富了图像处理理论,而且在生活中也有重要的应用,例如Internet环境下对于图像和视频的检索、交通管理中对车牌的识别、图书馆文献的数字化、盲人出行时获取文字信息等的各个领域都存在着很大的商业价值,也是当今国际上的热门研究课题。将复杂背景下彩色图像中的文字信息,转化为能够被计算机认识和处理的文本信息主要包括三个大部分,分别是图像的预处理、文字区域的定位与提取、字符的识别。要想对复杂背景下彩色图像中的文本进行识别,首先需要定位出有文本的区域,再对其中的字符进行识别。本文通过考察现有的文字定位与识别主要方法,分析其中的优缺点,使用Gabor滤波联合边缘密度检测对文本区域进行特征提取,采用基于笔画方向的统计特征对字符进行特征提取用来识别。在文本区域定位部分,单独使用Gabor滤波或者单独使用边缘密度检测的效果都不理想,这是由于每一个单独的特征依然会使其与非文本区域混淆,但是它们组合在一起后使得这些特征之间互相补足,就可以较清楚的区分出文本区域。对定位出的文本区域进行二值化、倾斜校正、文字切分、归一化等处理后,经过量化后得到标准大小的单个字符图像,接下来再使用基于笔画方向的统计特征对定位出的文本区域中的字符进行特征提取以及识别,取得了良好的效果。实验结果表明,本文所提出的文本定位方法可以较为准确的定位出复杂背景下彩色图像中的文本区域,定位出的文字基本完整,对定位出的区域中的文字也基本都可以识别出来。具有一定的理论意义和实用价值。