论文部分内容阅读
脱机手写体汉字识别是一种实现中文信息的自动化录入技术,它的研究不仅具有很高的理论价值,更有着广泛的实用价值。由于汉字类别多、字形变化不规则、相似字多和字体结构复杂等特点,使得脱机手写体汉字识别成为了模式识别领域中极具挑战性的课题之一,甚至可以代表模式识别技术的最高水平。 目前,脱机手写体汉字识别系统主要由输入图像、预处理、提取特征、弱分类、强分类和后处理等几个环节组成。本文以特征提取环节为核心对脱机手写体识别进行了深入研究,研究的主要内容如下: 1.输入图像和预处理。本文通过扫描仪输入图像,然后对输入的图像进行二值化、去噪、平滑化、汉字图像的行列切分、归一化等处理。其中汉字图像的行列切分是在二值化后的图像上找出切分点对原始图像的灰度图进行的切分,因此切分后的单字图像需要再次进行二值化、平滑去噪、归一化等操作,目的是为了更好地提高汉字图像的二值化效果。 2.汉字的细化和重构。通过汉字的细化可以减少汉字的一些冗余的信息,而通过汉字的重构可以使汉字更加规范化。本文的重构方法是一种根据细化后汉字的各个笔划走势进行重构的方法,正是由于这种根据笔划走势的特性,使得其能够比较准确地确定每一笔划属性。 3.特征提取和选择。通过详细介绍现有的几种统计特征、结构特征以及两者相融合的特征,本文提出了一种新的基于笔划方向分解的双弹性网格模糊特征提取方法,此方法不仅考虑到汉字的笔划结构和汉字整体相关性,而且通过利用对角弹性网格技术弥补了纵横网格技术对汉字图像撇和捺笔划模糊特征提取的不足之处。此外,基于主成分分析的特征选择也是本文一个研究的重点。 4.最后本文针对不同的特征提取方法对强分类和弱分类结果的影响进行实验分析,力求找出能够区分不同汉字的特征提取方法。实验表明,通过对提取得到的一次粗外围特征进行加工处理,能够更有效地将全包围汉字从杂合体字中分离出来。此外,本文提出的双弹性网格模糊特征在强分类中表现良好。