中文邮政地址识别研究

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 9次 | 上传用户:lsxfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究内容主要是针对中文邮政地址识别的薄弱环节,着力于提高整个中文邮政地址识别识别系统的性能,从二值化、脱机手写汉字分割、脱机手写汉字识别、后处理等方面进行了研究,并在此基础上,实现了一个中文邮政地址识别的检索系统。 论文主要工作如下: 1、本文提出了一种区域二值化算法。该算法对复杂的纹理,背景及过黑、过亮点具有较好的适应性,其耗用的时间约为局部二值化耗时的1/4。 2、本文根据脱机手写汉字的形状特征,采用竞争的动态规划方法实现了一个脱机手写汉字串的切分方法。对于正常的书写,其分割正确率可以达到80%。在该算法中,采用Viterbi算法作单字之间的分割,采用动态规划方法寻找最佳分割路径。 3、本文提出一种基于局部傅立叶变换和小波变换的脱机手写汉字识别的细分类算法。这一部分的工作是在本人手写数字识别的工作基础上,将该算法应用到脱机手写汉字识别中,在原有的识别核心的基础上,根据识别可信度,调用细分类算法。测试信封样本中收集的四万个手写汉字样本,在原有的识别率上,提高近4个百分点。 4、本文提出一种字典驱动的地址串切分算法提取信封地址中的汉字地址。在该算法中采用多路径分割,多个识别候选与地址字典相匹配,从众多的识别候选词中选择权值最大的候选作为识别结果。实际运用中对于信封地址行的识别取得了较好的效果。 5、本文提出了一种基于非完整字符匹配的后处理算法。该算法主要针对字符串中含有五个汉字以上的词组,并且假设分割能够有75%以上的正确率,脱机手写汉字的前十候选有95%以上的正确率。该算法用于实际信封中单位名称的识别,单位名称的查出率在95%以上,而且耗时较短。 6、在以上研究工作的基础上,实现了一种中文邮政地址识别检索系统,该系统在测试样本上运行性能良好,目前已经通过项目方的验收。该系统的二期工程,用于实际信封的检索也即将完成。
其他文献
“膏方进补时,忌食生冷、油腻、辛辣、不易消化以及刺激性食物,以免妨碍脾胃消化功能,影响膏剂的吸收……”11月7日,应浙江省温岭市抗癌协会邀请,温岭市中医院中医师为该市300多名
保障农产品质量安全是全面建成小康社会的基本要求,事关农业农村经济发展和人民群众健康安全。在“互联网+”发展背景下,农产品质量安全标准体系和溯源体系加速推进,农产品质
本文根据2017年中央一号文件精神部署,根据吉林省旅游资源特点及存在的问题,研究应用APP客户端和微信公众平台作为吉林省乡村旅游营销的解决方案。深度剖析APP客户端和微信公
回顾新中国成立70年来中国共产党政治建设的历史,可以看到党把政治建设放在首位,以政治建设统领其他建设;坚定正确的政治方向,坚持正确的政治路线;严明党的政治纪律,规范党内
在网络传输中,网络流量影响现实网络的业务传送质量。网络流量的自相似性(SelfSimilarity,SS)被发现后,利用分形和多重分形理论研究网络流量的测量、建模和控制,成为一个热点研究问
本刊讯8月14日,科勒在湖北省宜昌市均瑶酒店举行纽密新品发布会。科勒纽密将优雅设计与人性化科技完美结合,于发布会现场模拟操作,获得了嘉宾和观众的一致好评。
:板书设计在中学历史教学中具有十分重要的作用。板书设计的主要方法有 :表格式、线索式 ,立位式 ,结构式
互联网是当代经济社会发展新的基础设施,尤如二十世纪工业社会电气化进程中的电力网络一样,所有的经济社会活动都会转移到网络上来。2020年已过半,但全球疫情形势依然严峻,对
<正> 2.降低切削力产生切削振动的12种方法 (1)使用锋利的刀片来降低切削力 机夹可转位刀片分为涂层与非涂层刀片,非涂层刀片通常比涂层刀片要锋利,因为刀片如果要涂层一定要
研究背景及目的食管癌的死亡率在我国恶性肿瘤中居第四位,超过90%的食管癌患者是鳞状细胞癌。由于大多数食管癌患者就诊时已处于晚期,因此采用手术切除为主的综合治疗,其5年