论文部分内容阅读
该文的研究目的就是参考国内外最新研究进展,在PRIS实验室的技术积累基础之上,在"银行票据OCR系统中的成套关键技术"的国家863项目的支持下,对银行票据OCR系统系统中的关键技术进行研究和改进,从而提高系统的整体性能.该文主要开展了以下几方面的研究.银行票据中的待识别文字既可能是印刷体文字,也可能是手写体文字,为了获得高精度识别结果,需要把两种文字区分开.该文从特征提取,特征选择和分类器设计等方面对该问题进行分析,用贝叶斯分类器和神经网络设计了两种字体判断方法.当训练样本充足时,用神经网络正确率可达到99.5﹪,拒识率为3﹪时,错误率即可降低到接近0的程度.当训练样本很少时,用贝叶斯分类器,6个训练样本的正确率可以达到89.96﹪,99个训练样本的正确率为98.59﹪.为了处理银行票据中不同识别域的二值化问题,该文从对知识的获取和利用的角度讨论选择和构造二值化方法的思路,并针对各类识别域具体构造了一整套二值化方法.文字切分不仅是票据识别系统中的重要关键技术,也是其它所有脱机文字识别技术实用化的瓶颈.该文的文字切分方法主要有以下三个特点:(1)切分之前先提取候选切分位置.(2)采用贝叶斯分类器确定最佳候选切分边界.(3)结合文字识别结果切分文字.在银行票据OCR中的许多关键技术都和文字识别结果可信度相关.该文提出一种新的基于支持向量机的易混淆字判别和可信度估计方法,该方法适用于任何种类的分类器.