论文部分内容阅读
汉字是世界上使用人数最多的文字,在信息急速膨胀的时代,大量文档的人工录入劳动强度大,还有劳动力经济效益的问题,如何快速高效地将汉字输入计算机是信息处理的一个关键问题。因为汉字是非字母化、非拼音化的文字,在自动输入过程中与西文字符的区别很大,因此汉字识别的研究的具有实际的意义和广阔的应用前景。
文中的识别系统主要对汉字图像的预处理、版面分析和汉字识别进行了研究。其中对汉字的识别是整个系统的重点,阐明了识别过程中的特征提取和选取的分类器。汉字的识别是大字符集的识别问题,并且汉字的结构复杂,相似字也多,采取单一的特征和判别理论不能达到满意的识别结果。故文中采用了多分类器集成的方法,使得提取的特征优化组合,设计了多个特征互补并且匹配原则不同的分类器。应用距离判别法进行识别运算量小,可以比较快速的完成识别。测试结果说明,采用多分类器比采用单一的分类器有效地提高了识别率,充分阐明了这种方法是有效的。
文中的印刷体汉字识别系统经过各个部分的处理后,最终输出的为纯文本形式。完成对宋体和楷体的不同大小的汉字进行识别,平均的识别率达到96.45[%],平均每百字的识别速度达到6.5s。