论文部分内容阅读
金融票据自动处理系统以其较高的学术价值和应用价值越来越受到国内外众多著名研究机构以及学者的广泛重视。票据图像的预处理是字符识别的前提和基础,预处理效果的好坏将直接影响到系统的整体性能。目前的研究和应用表明,预处理效果的不理想已成为识别错误的主要原因之一。因此研究如何提高预处理后字符图像的质量对于提高系统的整体性能具有极其重要的意义。 本文以金融票据为研究对象,主要对预处理过程中的一些核心技术进行研究和改进,并取得了一定的成果。 针对票据图像中普遍存在的笔画与表格框线交叠的现象,提出了直接利用图像灰度信息的灰值线检测与去除算法。在直线检测过程中设计了灰度图像中的Hough变换来精定位直线的两条边沿;在去直线过程中对边缘特征进行分析,采用基于保护区的策略将线去除。在支票上的试验表明该算法是有效的。 票据图像背景复杂,直接选取阈值比较困难。提出了利用形态学算法检测笔画双边缘的方法以及两种二值化算法:(1)从图像分割的效果评价角度出发,结合字符图像的特点提出了利用递归过程选取阈值的方法。在每一次的递归过程中,由最大方差阈值去除图像中最亮的一类,直到图像中只剩下最黑的一类目标(字符)。(2)通过灰度和双边缘特征分析进行二值化。灰度值描述了像素自身的特性;双边缘描述了像素在局部窗口内的相对特性。通过二维直方图内的投影变换,目标和背景对应的峰更明显,阈值选取变得较容易。采用视觉效果和识别效果两种评价方式与常用的5种文档图像二值化算法进行比较,结果表明了提出的两种算法更有效。 针对票据中大量的数字串填写在定位格内的情况,提出了一种新的数字分割方法。该方法将数字粘连划分为过渡粘连和共用粘连两种方式。对于第一种粘连,首先由上下轮廓差和结构点确定候选分割点,再依据数字的左右边缘差、纵向开口深度和结构点对结果进行修正;对于第二种粘连,则直接依据结构点进行分割。对622个粘连字串的平均分割成功率为92.28%。 最后本文给出了一个基本的后督手写支票自动处理系统,主要对其中的一些图像处理和模式识别技术进行了简单介绍,该系统已经在实践当中得到了使用,取得了良好的效果。