论文部分内容阅读
票据识别系统的研究是当前文档分析与识别系统研究中的一个热点问题。本文重点研究基于扫描笔的发票号码识别系统。涉及图像预处理、图像拼合、字符定位与分割、字符识别等一系列过程。本文基于MATLAB完成发票识别系统的仿真,最终将算法移植到扫描笔硬件平台上,实现了对各种类发票印刷体数字快速,准确的识别。首先,针对扫描笔采集的发票号码图像中存在的多种噪声及背景亮度分布的不均衡,实施图像预处理。预处理主要包括图像去噪、亮度均衡及二值化。本文进运用背景估计法分离图像背景,对背景亮度进行均衡校正,为后续的二值化处理提供了良好的基础。针对二值化后,一些字符出现的断裂及破损现象,运用形态学后处理进行弥补,具有很好的效果。其次,采集到的发票号码图,数字串通常位于图像中某一位置,其上下左右均可能存在干扰。如汉字、印章、冒号及边框底纹干扰等。后续识别只针对数字串,因此需要从有干扰的发票代码图中分离出目标数字串,本文在二值化基础上,对发票代码图像进行投影旋转校正,并定位字串上下边界,完整切取待处理数字串。再次,旋转切取后,得到完整的数字串图像,需进一步进行单字符定位分割,以分离出单个数字,进行识别。本文采用了一种基于字串包络的字符分离方法。具有很好的切分效果。最后,本文对现有的数字识别算法进行了研究,针对大部分印刷体数字形态上具有的共性,采用了基于字符笔划和轮廓形态特征的结构识别方法。此方法识别准确度好,效率高。基于实验室开发平台,综合前述几大问题的解决方案,进行了软件设计,运用MATLAB进行测试平台搭建和算法仿真,使用C语言进行扫描笔上嵌入式软件的编写,最终完成了软件编码和调试。我们实现了一个具有应用水平的金融票据识别系统,并且已经应用于相关业务系统中,本文通过对97幅发票图像上的机打代码、金额、日期等在扫描笔上进行实验,识别率达94%以上,且实时性好。