论文部分内容阅读
印刷体汉字识别的基本用途就是把汉字自动输入计算机,实现人与计算机之间的信息交换。汉语与西方语言不同,西方语言是拼音文字,而汉语是表意文字,西方文字结构简单,字数少,容易识别;汉字字数多、字体多、结构复杂、一字一形识别起来有一定的难度。但是,研究汉字识别,对我国现代化、信息化建设有重要意义。本文以国家标准GB2312-80中第一级常用汉字共3755个汉字为字库,对汉字识别系统的三个主要部分:预处理、特征提取和匹配识别分别进行阐述。文章对这三个方面进行了仔细的研究,同时做出了改进。与原方法相比,改进后的算法在效率上有了很大的提升,实现了文档图像的自动处理。主要工作如下:(1)图像预处理的主要任务是解决由于印刷质量和文字字体不同而造成的识别困难,为文字特征的提取和识别创造条件。在预处理过程中,图像的二值化主要用来消除光电转换中引起的噪声,使背景像素和目标像素的对比更加明显;版面分析用来分离特殊像素和文字像素;文字的细化是为了使文字的特征更加集中。在预处理中,本文重点对文字的细化进行研究,通过数学形态学的击中击不中算法对汉字细化方法进行改进。实验结果表明改进后的细化算法,能够保留汉字的主要特征,具有较好的连通性。(2)在文字特征提取环节,本文分析了现在常用的文字特征类型,如:繁简度特征、连通体及封闭区域特征、外围及网格特征等。在研究了这些特征提取算法的优缺点的基础上,本文对文字繁简度特征算法进行了改进,并提出了基于汉字笔画穿越和能量密度值特征,在很大程度上提升了本套印刷体汉字识别系统的识别效果。(3)单个汉字分类器因为自身存在的缺陷,会使识别结果很难达到理想值。这时就需要将几种分类器进行组合,利用各分类器的优点互补提高识别效果。本文在已有的几种集成算法基础上,提出了综合识别率和识别速度的最大优化集成法。该方法通过代价函数,将识别率和识别速度进行统一,寻找最佳的结合点,从而提高系统的整体性能。