基于代价敏感学习的手写邮编和地址识别

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:luxiliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档图像分析与识别技术经过几十年的发展,在理论上和应用上都取得了长足进步,并形成了一系列实际应用系统,邮件自动分拣即是其一个典型应用。现有的邮件自动分拣系统中,邮编和地址识别往往采用通用字符分类器,这些分类器,尤其是商用分类器,为了达到通用目的,在生成过程中,一般基于类别均衡分布的训练样本,没有考虑类别不平衡问题。然而在实际应用中,邮编中的数字分布及地址中的汉字分布通常是不平衡的,而且这种不平衡性使得通用的、基于均衡分布训练样本生成的分类器在邮编和地址识别中存在一定局限性,而且这种局限性在识别率相对较低的手写邮编和地址识别中表现更为明显。另一方面,通用字符分类器在生成过程中一般以单字识别性能作为学习优化标准,而邮编和地址均包含多个单字,是一种字符串形式,无论是邮编识别还是地址识别,其追求的目标是整条字符串的高识别率和低错误率,因此一个性能良好的通用单字识别引擎在邮编或地址识别中不一定得到良好的性能。目前,印刷体邮编和地址的识别性能已经达到一定高度,而手写邮编和地址的识别率还相对较低,更迫切需要进一步提高。基于以上原因,本文从分析邮编和地址的字符分布规律入手,研究提升手写邮编和地址识别性能的方法。在单个目标识别分类研究中,代价敏感学习是解决类别不平衡问题的有效手段,而对字符串中的字符类别分布不平衡问题,还没有相关的研究。本文针对手写邮编和地址识别中数字和汉字类别分布不平衡问题,研究单个字符分布不平衡对整串识别的影响,并利用代价敏感学习的方法解决此类别不平衡问题。主要贡献和创新成果包括:1.提出基于代价敏感分类器的手写邮编识别方法。针对手写邮编识别中的数字类别分布不平衡问题,选取BP神经网络分类器和支持向量机(SVM)分类器,进行代价敏感学习的研究。对BP神经网络分类器,采用代价敏感采样、代价敏感收敛、训练步长调整及输出调整四种方法进行代价敏感学习,对支持向量机,采用代价敏感采样和代价敏感优化两种代价敏感学习方法。为了得到最优的识别性能,我们选取多个代价矩阵进行测试,实验结果证明代价敏感学习方法是一种有效的解决手写邮编识别中类别分布不平衡问题的方法,而且对于两种分类器,基于合适代价的代价敏感采样方法的效果更为明显。2.提出基于代价敏感转换的手写中文地址识别方法。针对中文地址识别中的汉字分布不平衡问题,以贝叶斯最优预测理论为基础,提出一种代价敏感转换方法将通用手写汉字识别引擎转换为地址识别这一特定应用领域的代价敏感分类器,并且把转换后的代价敏感分类器集成到手写中文地址识别系统中进行测试,在实验中我们仍选取多个代价矩阵进行代价敏感转换测试,结果表明这是一种非常有效的代价敏感学习方法,而且如果错分代价选择合适,这种方法对手写地址识别性能的提高非常明显。3.研究并设计了代价敏感二次判别函数分类器CMQDF,降低汉字类别分布不平衡对手写地址识别性能的影响。修正的二次判别函数(MQDF)己被广泛并成功应用于手写汉字识别领域。本文利用对MQDF进行判别学习的过程,引入错分代价,用最小错分代价代替最小分类误差准则来判断分类器的收敛性,从而实现对MQDF的代价敏感学习,生成代价敏感分类器CMQDF。实验证明CMQDF是一种有效的代价敏感分类器,它可以有效减小类别分布不平衡对手写地址识别性能的影响。实验中还对CMQDF与代价敏感转换方法进行比较,结果表明CMQDF有效增强了系统的识别可信度,而代价敏感转换方法对手写地址的识别率提高更多一些。本文提出的思想、模型和算法均已经过实验验证,并已在相关领域得到了应用。如第二章提出的基于代价敏感分类器的邮编识别方法已成功应用到上海邮政科学研究院研发的新一代MPS信函分拣机中(该自动分拣系统获得中国邮政集团公司科学技术奖一等奖),第三章提出的代价敏感转换方法和第四章提出的CMQDF分类器已经应用到作者所在实验室与某研究所合作承担的国家科技支撑计划项目“**临检综合处理平台”中。
其他文献
简要分析、介绍了点支中空玻璃板的承载特点 ,并简述了有限元模型的建立过程 ,其位移计算结果与现有试验测值吻合较好。利用该模型 ,分别研究了气体层厚度、内外片玻璃板厚以
<正>由于抗生素在动物生产中的长期使用以及一些不合理的应用,人们发现抗生素饲料添加剂在给我们带来巨大经济效益的同时也引发了许多负面影响。如抗生素引起的细菌耐药性的
本文对无信号控制的干线公路平面交叉合理间距设置进行了研究,通过对干线公路平面交叉之间交通流的运行特性及几何参数进行分析,对干线公路交叉口之间的距离进行分段,结合影
冬季奥运会竞技实力格局的不均衡性、区域性特征显著,形成了以中欧为核心的强实力区域,北美、北欧为辅的较强实力区域。随时间推移,强实力区域竞技实力正不断向较强实力区域
<正>有调查表明,"迷惘"是当前相当多的媒介中人面对如此景观时的一种内心纠结。传播渠道的七横八纵,传播方式的五花八门以及传播效果的"一地鸡毛"是当前传播领域中的一道"乱
期刊
<正>近年来,广大畜牧工作者致力于研究新型、安全的抗生素替代品,中草药(及其提取物)、抗菌肽便应运而生。补益类中草药能增强动物免疫机能、改善动物产品品质,抗菌促生长,且
阅读是视障人群生活不可或缺的一部分,专业视障图书馆以及公共图书馆的视障阅览室应充分发挥应有的功能,为不同的视障读者提供适合阅读的文献形式,积极引导他们利用不同的辅
本文根据选定的证券市场行情预测对象,选择数据挖掘技术中具有预测优势的方法,并将各种方法的优势结合起来,得到针对不同预测对象的不同方法。这些方法能发挥数据挖掘技术的优势
苹果树冠层光照分布研究是优化果树株型,提升生产潜力的重要途径之一。合理有效地利用光能,优化果树冠层内的光照分布,对果树的生长发育和果实品质的形成具有重要的意义。本
本文分析了我们存款保险制度建立的必要性,提出了在我们如何建立存款保险制度,对存款保险制度的设立进行了思考,以期引起社会专家的共识,以确保和维护人民的利益。