论文部分内容阅读
由于电子文档相对于传统的纸张文档来说,具有容易保存、检索、传输的优点,且保密性好,因此,将传统的纸张文档转换成电子文档,具有重要的实际意义。目前,这种转换技术已成为模式识别领域的一个重要研究内容。这种转换一般通过文档扫描(SCAN)和字符识别(OCR)两个步骤完成。然而,很多文档的页面形式比较复杂,往往不仅包含文字区域,还会包含图像区域。因此,有必要将文字区和图像区加以分离,以便只将文字区作为OCR系统的有效输入。这个过程可以作为文档扫描过程的后处理过程或者OCR系统的预处理过程。 本文主要研究文本页面图像的分割与分类算法。为了使算法能够对倾斜的文本图像进行正确的分割和分类,文章首先提出一种基于形态学和霍夫变换的倾斜检测算法对文本页面图像的倾斜角度进行检测,并对倾斜的文本图像进行校正。相对于其它倾斜检测方法来说,实验证明,该方法具有检测速度快、检测精度高的优点。对于经过倾斜校正的文本页面图像,本文提出投影轮廓循环切分法对页面中具有不同属性的各个部分进行分割,同时进行初步的分类。由于在分割中引入了中点切分,该分割算法能对含有不规则图片区的文本页面图像进行正确的分割。对分割后的图像,本文采用黑白像素比(BWR)及黑白像素交替变换数(CC)两个特征进行进一步的分类。实验结果表明,本算法具有抗干扰性能好,速度快的优点。