论文部分内容阅读
印刷体汉字识别是汉字识别技术的一个重要课题,涉及到图像处理和模式识别领域。随着智能化信息和网络时代的到来,印刷体汉字识别在证件识别、中文信息处理、办公自动化等方面都有着日益广泛的应用。预处理是印刷体汉字识别系统中的重要环节,预处理结果的好坏,直接影响了识别系统中识别率的高低。因此研究印刷体汉字识别的预处理技术具有重要的应用价值和理论意义。本文主要是对印刷体汉字识别的预处理研究,实现了对文档图像的自动预处理,取得了较好的效果。主要工作如下:(1)针对数码相机输入的图像由于光照不均匀、噪声等原因所造成质量不高的特点,对二值化方法进行大量的研究和实验,对预处理过程进行了改进。因为切分后单个字符图像面积小,像素灰度分布比较均匀,因此更容易分割背景和文字。在对整篇文档二值化处理后的基础上,增加了一步对单个字符图像二值化处理。实验结果表明,通过对单个字符的二值化处理,使汉字笔画噪声更小,汉字信息被更完整的保留。(2)对汉字细化算法进行了较深入的研究。本文对一种基于数学形态学的击中击不中汉字细化方法进行了改进,定义了一组新的结构元素序列,改进了算法流程,使在交叉点处的处理效果更好,笔画更平滑。并且在该细化结果的基础上,定义了一种新的汉字笔画提取方法。大量实验结果表明,该算法可以准确的提取汉字的水平、垂直、撇和捺的笔画,特别是对撇捺笔画的提取,保留了汉字的特征,且具有较好的连通性。(3)对汉字字体识别进行了初步的研究,应用基于多尺度小波纹理分析的方法,选取小波能量分布特征和小波能量比例分布特征,进行宋体、楷体、黑体、仿宋、隶书和幼圆六种汉字字体识别。此外,本文对印刷体汉字识别预处理过程中的关键步骤进行了研究,实现了对文档图像的倾斜矫正、版面分析、汉字切分,以及文字的归一化和平滑去噪,并取得了较好的效果。