论文部分内容阅读
随着计算机技术的发展、模式识别技术的进步,用计算机处理日常工作中使用的大量票据和表单成为可能,这就是我们通常所说的OCR(光学字符识别)技术。在OCR技术中,手写体数字识别是一个特别的问题,在邮件的自动分拣、工商财务报表的自动录入、考试的自动化报名系统中,都有着广泛的应用背景。 Adaboost算法的基本思想就是,找出若干个、精度比随机预测略高的弱规则,再将这些弱规则组合成一个高精度的强规则。这个算法思想起源于Valiant提出的PAC学习模型,而且Kearns和Valiant证明,只要有足够多的数据,弱学习算法就能够通过集成的方式,生成任意高精度的估计。本文对Adaboost算法进行了研究,并在很多方面对其进行了改进,使其更加适用于数字识别领域。本文的主要工作是:构建了两级分类器结构,使得经典的二分类Adaboost算法不需要做出巨大的改动就可以应用到多分类问题,保持了特征易提取、弱分类器简单的特性;在两级分类器的第一级分类器中,将最后的输出值域由{O,1)改进为[0,1],并据此提出类别隶属度的概念;增加了新的矩形特征形态,并通过实验确定了适合于数字识别使用的矩形特征(形态、个数等)。通过对Adaboost算法的改进,本文中实现的数字识别子系统具有较高的识别率,并且在训练效率和对硬件的要求上比其他优秀的方法更具有优势。 本文还实现了一个医院病案质量评审系统,将基于Adaboost的数字识别算法应用到了实际的系统中,同时解决了一些OCR识别软件中常见的图像处理问题。本系统制定了适合OCR高速文档扫描、识别使用的票面规则,使得对票面中各种信息块的定位、识别更加简单和具有鲁棒性;利用积分图像这个工具,实现了一种高效而稳定的定位块识别算法;为了使数字识别系统更具有实用性,提出了用开闭算法结合Adaboost算法的方案,减少了产生识别错误的风险。