论文部分内容阅读
打印体汉字串识别研究不仅有助于进一步提高金融票据识别系统的自动化处理程度,而且有利于将打印体汉字串识别在金融票据识别中推向实用,具有其广阔的应用前景,是一个非常有研究价值的课题。本文以建设银行支票中非金额打印体汉字串为研究对象,针对预处理、分割、识别和后处理中的一些核心技术进行探讨和研究,并给出具体有效的解决方法,取得了一定的成果。对采集的彩色图像进行灰度化处理,针对支票图像中存在红色印章的情况,提出了有效的灰度化处理策略。首先,判断汉字串颜色(红、蓝、黑);其次,对于蓝色和黑色的汉字串图像,提出了在保留汉字串区域信息的基础上去除章印影响的算法,对于红色汉字串图像,志于解决汉字串和印章之间存在明显间隙的情况,先采用加权平均法对彩色图像直接进行灰度化,再基于二值图像的灰度投影寻找一块空白区域将汉字串和印章分开,从而消除印章的影响。对汉字串倾斜校正,在汉字串打印的时候常会出现倾斜的情况,为了便于在后续分割和特征提取,需要对其进行旋转矫正。对于倾斜角的计算,首先采用直线拟合的方法,该方法可解决大部分的倾斜情况,对剩余汉字串不是整体倾斜的情况,本文提出了分段折线拟合进行矫正的方法。两种校正方法相结合取得了理想的校正效果。对单个字符识别,首先采用最近邻方法将类中心用于汉字一级粗分类来提高汉字识别速度;其次探讨采用了改进的最近邻分类器对字符进行二级细分类。实验表明,此方法相比于直接采用近邻方法,其识别速度和识别率都有了显著的提高。对识别后处理,采用了基于统计的N-gram语言模型和单字识别器相结合的汉字识别后处理方法;针对识别对象的特殊性,本文提出了基于汉字串查找匹配的识别后处理方法。最后将两种后处理方法相结合,用15099个样本进行测试,整串识别率为86.72%。