基于字典驱动的小样本中文邮政地址识别

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:superdai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近五年,我国邮政信函、快递业务量保持20%的年均增长率,传统依靠手工进行邮政信函分拣模式难以胜任业务量的高速激增需求。目前一些自动邮政分拣系统主要通过建立信件上的条形码、标识码与邮编号码或地址信息的对应关系来实现信函的自动分拣,其邮编或地址通常是通过终端人工输入,在大量信函集中处理时,费时、费力、效率极低。利用图像识别方法,依靠机器自动识别信函上的邮编及地址是一种非常有效、快速的分拣手段。利用信封上的邮编识别来实现自动分拣,会由于邮编空缺、书写不规范或错误,导致依照邮编识别会出现地址投递区域错误,造成信件延误或者丢失情况。为改善邮政地址和邮政编码单独识别率受限状况,本文利用邮政地址字典驱动模型,从信函提取手写收件人地址区域和邮编号码图像,实现手写收件人地址省、市、区(县)信息和邮政编码识别。论文完成工作如下:信封图像预处理与分割:预处理包括去噪、二值化、倾斜校正、地址块提取、归一化等。利用行投影法对信封图像进行分割,获得收件人地址块信息,然后利用局部列投影进行地址串切分。手写邮政地址识别:论文采取两级特征法进行识别,第一级采用改进粗网格特征、外内围特征进行单字粗分类,以减少二级识别单字候选集;第二级采用三方向笔画密度特征、局部傅里叶变换特征对粗分类单字候选集进行细分类。字典驱动模型:由于手写汉字存在大量连笔、粘连、噪音污染、断笔的情况,使得单字识别过程中,汉字图像分割后的字符不一定独立和完整,对单个汉字的识别率产生很大影响。采用字典驱动的方法对地址文本图像细化切割后获得的部件集,利用字典先验知识,寻找最优分割路径,可减少搜索空间,对于省市区(县)中某个字符书写错误或不规范问题,能够自动进行纠正识别。在小邮政地址和编码字典条件下,对提出的算法进行测试,实验结果验证了基于字典驱动模型的地址搜索路径优化以及二次外围特征粗分类和方向笔画密度细分类的两级识别算法的有效性。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文详细阐述了微型环谐振腔器件的原理、性能及其应用,提出了数种新型复合微型环谐振腔器件的设计与分析。利用多微型环谐振腔耦合在对称马赫-曾德尔干涉仪的一臂上,可以得到高
通讯信息安全一直是大众较为关注的一个焦点问题,我国在电子信息安全技术领域的探索从未停下脚步,在“墨子号”成功升空后,国内的无条件安全通信彻底被打通,全球首颗量子卫星
双光子吸收作为一种非线性光学现象,是指介质同时吸收两个光子而跃迁到高能级。双光子吸收材料在光限幅,三维光信息存储,双光子显微成像和光动力疗法等方面都显示出变革性的应用
在信息化引领时代的今天,移动互联网逐渐成为主要传播媒介,并在不断应用的过程中实现速度和质量等方面的新突破.人们生活的科技化、智能化离不开移动互联网的发展,它以独特的
为了在世界范围内推行可信计算技术,TCG(可信赖计算组织)定义了具有安全存储和加密功能的TPM(Trusted Platform Module)可信平台模块。该平台是一种基于TCG工业标准规范的微
进入二十一世纪以后,互联网技术发展迅速,给人们的生活和工作带去了极大的改变,受到很过国家和人民的广泛关注,无线传感网和物联网在此背景下应运而生,并且被广泛应用于各个
压电微质量传感器又称微量天平(microbalance),能够检测微小质量的物质。这类传感器广泛使用悬臂梁这一机械结构,是压电效应与MEMS技术结合的产物。针对目前悬臂梁压电微质量传
太阳能光伏发电在未来能源结构和社会发展中占有重要的地位。开展聚光光伏发电实验研究不仅对于降低太阳电池发电系统成本,推动光伏发电技术的大规模应用;而且对于节约常规能源保护生态环境都具有重要的意义。本文在实验研究多晶硅太阳电池输出特性的基础上,研究设计了非对称复合抛物面(CPC)低倍聚光器;通过优化设计研制出适用于CPC低倍聚光器的多晶硅光伏组件,并对组件的输出特性进行了实地测试和分析评估。 本
城域光缆传输系统是一个程序非常复杂的系统,城域传送网是非常复杂的网络,城市与城市之间因为现状不同而有所不同.城域传输系统覆盖城区、郊区或者规模较小的市县,为城区多地