论文部分内容阅读
文档图像分析与识别技术经过几十年的发展,在理论上和应用上都取得了长足进步,并形成了一系列实际应用系统,邮件自动分拣即是其一个典型应用。现有的邮件自动分拣系统中,邮编和地址识别往往采用通用字符分类器,这些分类器,尤其是商用分类器,为了达到通用目的,在生成过程中,一般基于类别均衡分布的训练样本,没有考虑类别不平衡问题。然而在实际应用中,邮编中的数字分布及地址中的汉字分布通常是不平衡的,而且这种不平衡性使得通用的、基于均衡分布训练样本生成的分类器在邮编和地址识别中存在一定局限性,而且这种局限性在识别率相对较低的手写邮编和地址识别中表现更为明显。另一方面,通用字符分类器在生成过程中一般以单字识别性能作为学习优化标准,而邮编和地址均包含多个单字,是一种字符串形式,无论是邮编识别还是地址识别,其追求的目标是整条字符串的高识别率和低错误率,因此一个性能良好的通用单字识别引擎在邮编或地址识别中不一定得到良好的性能。目前,印刷体邮编和地址的识别性能已经达到一定高度,而手写邮编和地址的识别率还相对较低,更迫切需要进一步提高。基于以上原因,本文从分析邮编和地址的字符分布规律入手,研究提升手写邮编和地址识别性能的方法。在单个目标识别分类研究中,代价敏感学习是解决类别不平衡问题的有效手段,而对字符串中的字符类别分布不平衡问题,还没有相关的研究。本文针对手写邮编和地址识别中数字和汉字类别分布不平衡问题,研究单个字符分布不平衡对整串识别的影响,并利用代价敏感学习的方法解决此类别不平衡问题。主要贡献和创新成果包括:1.提出基于代价敏感分类器的手写邮编识别方法。针对手写邮编识别中的数字类别分布不平衡问题,选取BP神经网络分类器和支持向量机(SVM)分类器,进行代价敏感学习的研究。对BP神经网络分类器,采用代价敏感采样、代价敏感收敛、训练步长调整及输出调整四种方法进行代价敏感学习,对支持向量机,采用代价敏感采样和代价敏感优化两种代价敏感学习方法。为了得到最优的识别性能,我们选取多个代价矩阵进行测试,实验结果证明代价敏感学习方法是一种有效的解决手写邮编识别中类别分布不平衡问题的方法,而且对于两种分类器,基于合适代价的代价敏感采样方法的效果更为明显。2.提出基于代价敏感转换的手写中文地址识别方法。针对中文地址识别中的汉字分布不平衡问题,以贝叶斯最优预测理论为基础,提出一种代价敏感转换方法将通用手写汉字识别引擎转换为地址识别这一特定应用领域的代价敏感分类器,并且把转换后的代价敏感分类器集成到手写中文地址识别系统中进行测试,在实验中我们仍选取多个代价矩阵进行代价敏感转换测试,结果表明这是一种非常有效的代价敏感学习方法,而且如果错分代价选择合适,这种方法对手写地址识别性能的提高非常明显。3.研究并设计了代价敏感二次判别函数分类器CMQDF,降低汉字类别分布不平衡对手写地址识别性能的影响。修正的二次判别函数(MQDF)己被广泛并成功应用于手写汉字识别领域。本文利用对MQDF进行判别学习的过程,引入错分代价,用最小错分代价代替最小分类误差准则来判断分类器的收敛性,从而实现对MQDF的代价敏感学习,生成代价敏感分类器CMQDF。实验证明CMQDF是一种有效的代价敏感分类器,它可以有效减小类别分布不平衡对手写地址识别性能的影响。实验中还对CMQDF与代价敏感转换方法进行比较,结果表明CMQDF有效增强了系统的识别可信度,而代价敏感转换方法对手写地址的识别率提高更多一些。本文提出的思想、模型和算法均已经过实验验证,并已在相关领域得到了应用。如第二章提出的基于代价敏感分类器的邮编识别方法已成功应用到上海邮政科学研究院研发的新一代MPS信函分拣机中(该自动分拣系统获得中国邮政集团公司科学技术奖一等奖),第三章提出的代价敏感转换方法和第四章提出的CMQDF分类器已经应用到作者所在实验室与某研究所合作承担的国家科技支撑计划项目“**临检综合处理平台”中。