论文部分内容阅读
脱机汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,它涉及到模式识别、图像处理、人工智能、形式语言与自动机、中文信息、组合数学、模糊数学、信息论、处理等学科,也涉及到心理学、语言文字学、仿生学等学科,手写体汉字识别是汉字识别的一个重要分支,是模式识别和人工智能的一个不可缺少的范畴。目前,联机手写体汉字识别技术已经取得了飞速的进步并得到了比较好的识别效果,在实时性和正确率这两方面的识别基本能够满足用户的需求。比如在自动阅读邮件地址、处理银行支票和账单等这些特定的应用领域中,识别技术也已经取得了骄人的效果。但是,联机手写体识别技术它的应用范围相对狭窄,对汉字的书写也有较大的限制。所以远远不能满足用户的基本需求,因为在我们的日常工作和生活中,大量的手抄报表、手写文档等都需要输入计算机,那如何将它们高效的录入计算机,使它们成为可编辑的数字化信息,另外,庞大的历史文档需要处理,如果把它们以联机方式一个字一个字的输入计算机将是一项既耗人力物力又费财力的浩大工程。另外,手写体汉字字型结构复杂、相似字较多、字符集大、以及字形变化较大,加之不同的人有不同的书写风格等。所以脱机手写体汉字识别虽然经过了几十年的研究,目前还没有成熟的产品,技术有待开发,是国内外研究焦点,也汉字识别领域的一个富有挑战性的难题。但印刷体汉字识别技术已经功走出实验室,得到广泛应用,联机手写体汉字识别已趋于成熟,走向商业化。基于以上本文对脱机手写体汉字识别进行了研究,提出了一种基于笔画的脱机手写体汉字识别方法。因为大多数中国汉字的构成离不开横竖撇捺这四种笔画,这四种笔画在手写体汉字中所占比例如下:39.51%、33.94%、16.77%和9.78%。尽管不同的人写出来的汉字大小形状各异,但横竖撇捺这四种笔画在手写体汉字中的相对位置、距离、夹角这些特征肯定是相对稳定的,还有以前人们对手写体汉字识别大多采用了简单的统计特征提取和分类算法,这不能从根本上解决手写体汉字识别的困难。本文采用的脱机手写体汉字识别方法分为三个步骤,分别是预处理,特征提取,对提取的特征进行特征匹配识别。首先对手写体汉字样本进行预处理,本文通过对图像灰度化二值化、平滑去噪、图像切分、大小归一化、细化六个步骤对手写体汉字样本图像进行预处理。通过对手写体汉字图像的预处理,有效的保持了原始图像信息和手写体汉字本质特征,弱化或降低了原始图像中存在的各种干扰因素,从而达到达到优化原始图像的效果。当然,毫无疑问,预处理的好坏将直接影响特征提取的效率。第二步特征提取。本文采用了以下几个步骤:1.对预处理好的手写体汉字提取笔画的分叉点;2.采用最大距离法提取笔画拐点;3.提取笔画的倾斜度和端点坐标;4.修复预处理时不可避免产生的各种畸变;5.合并预处理时产生的伪交叉点等;6.构造手写体笔画结构特征。第三步匹配识别。在笔画特征匹配识别阶段,本文首先把手写体样本汉字的笔画作为特征存储到模板库中从而建立笔画模板库,接着训练笔画模板库,然后将每一个待识别手写体样本汉字与系统的笔画模板库进行匹配比对,并计算待识别手写体样本汉字与模板库中每个汉字的组合距离,选取其中最小距离进行分类识别。