文本页面图像分割与分类算法的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lhc300266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于电子文档相对于传统的纸张文档来说,具有容易保存、检索、传输的优点,且保密性好,因此,将传统的纸张文档转换成电子文档,具有重要的实际意义。目前,这种转换技术已成为模式识别领域的一个重要研究内容。这种转换一般通过文档扫描(SCAN)和字符识别(OCR)两个步骤完成。然而,很多文档的页面形式比较复杂,往往不仅包含文字区域,还会包含图像区域。因此,有必要将文字区和图像区加以分离,以便只将文字区作为OCR系统的有效输入。这个过程可以作为文档扫描过程的后处理过程或者OCR系统的预处理过程。 本文主要研究文本页面图像的分割与分类算法。为了使算法能够对倾斜的文本图像进行正确的分割和分类,文章首先提出一种基于形态学和霍夫变换的倾斜检测算法对文本页面图像的倾斜角度进行检测,并对倾斜的文本图像进行校正。相对于其它倾斜检测方法来说,实验证明,该方法具有检测速度快、检测精度高的优点。对于经过倾斜校正的文本页面图像,本文提出投影轮廓循环切分法对页面中具有不同属性的各个部分进行分割,同时进行初步的分类。由于在分割中引入了中点切分,该分割算法能对含有不规则图片区的文本页面图像进行正确的分割。对分割后的图像,本文采用黑白像素比(BWR)及黑白像素交替变换数(CC)两个特征进行进一步的分类。实验结果表明,本算法具有抗干扰性能好,速度快的优点。
其他文献
该论文主要针对图象盲复原和超分辨率复原算法及其应用进行了研究,内容包括:1.概述了图象盲复原的数学模型、性质及现有的五类方法.2.结合模糊先验辨识的思想,给出了一种新的
本论文的项目来源是军用超短波(VHF)跳频电台型号研制项目。作者主要承担了电台同步控制部分的工作。电台同步控制的平台为基于DSP的中频数字化处理模块。同步方案采用了同步
该文首先介绍数据挖掘的研究背景、定义、数据挖掘的过程及任务,然后对数据挖掘的常用技术进行了较为详细的讨论.在此基础上,对神经网络在数据挖掘中的应用进行了深入的研究.
该文将IPQoS网络资源分配问题转化为一个简单的,适用性很强的对策论模型,用效用函数描述不同用户对QoS的不同偏好,用户各自最大化从对网络的使用中获得的收益.在第一章,该文
本文主要的工作是通过一个实际的项目,进行了基于西门子公司SIMATICSINEC工业现场通信网络的研究与设计。作者采用目前日益流行的现场总线技术,构建了新一代FCS(现场总线控制系
大部分计算机的输入设备基本为鼠标和键盘,同直接用手指控制电脑相比,还是不太方便直接,因此就有了触摸屏技术。目前,银行的提款机大多都有触摸屏功能,医院、图书馆等大厅都有触屏
平板显示器件因为其低电压、低功耗、体积小、重量轻等诸多优点,正在越来越多的领域逐渐替代传统的CRT显示设备.尤其在应用于便携设备显示终端方面,平板显示器更具有不可替代
目前,桥梁三维建模通常在3DMax或者Auto CAD中手工进行,模型一旦成形,其几何形状的修改比较困难。为了使桥梁建模工作具有一定的通用性,本文结合桥梁结构特点,采用参数化方法对桥
该文是针对指纹图像数据压缩编码方法的研究.作者提出了一种改进了的基于9/7小波变换的零树图像编码方法,并进而尝试基于多小波变换的编码方法.实验证明了这些编码方法是有效
该论文在对海洋监测系统研究开发的基础上,就极有发展潜力的嵌入式技术在海洋监测系统中的应用进行了研究探讨.论文首先以PHILIPS公司新近推出且功能强大的嵌入式芯片P89C51R