基于笔画的脱机手写体汉字识别与研究

来源 :太原理工大学 | 被引量 : 6次 | 上传用户:xtwjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脱机汉字识别是用计算机自动辨识印刷在纸上或人写在纸上的汉字,它涉及到模式识别、图像处理、人工智能、形式语言与自动机、中文信息、组合数学、模糊数学、信息论、处理等学科,也涉及到心理学、语言文字学、仿生学等学科,手写体汉字识别是汉字识别的一个重要分支,是模式识别和人工智能的一个不可缺少的范畴。目前,联机手写体汉字识别技术已经取得了飞速的进步并得到了比较好的识别效果,在实时性和正确率这两方面的识别基本能够满足用户的需求。比如在自动阅读邮件地址、处理银行支票和账单等这些特定的应用领域中,识别技术也已经取得了骄人的效果。但是,联机手写体识别技术它的应用范围相对狭窄,对汉字的书写也有较大的限制。所以远远不能满足用户的基本需求,因为在我们的日常工作和生活中,大量的手抄报表、手写文档等都需要输入计算机,那如何将它们高效的录入计算机,使它们成为可编辑的数字化信息,另外,庞大的历史文档需要处理,如果把它们以联机方式一个字一个字的输入计算机将是一项既耗人力物力又费财力的浩大工程。另外,手写体汉字字型结构复杂、相似字较多、字符集大、以及字形变化较大,加之不同的人有不同的书写风格等。所以脱机手写体汉字识别虽然经过了几十年的研究,目前还没有成熟的产品,技术有待开发,是国内外研究焦点,也汉字识别领域的一个富有挑战性的难题。但印刷体汉字识别技术已经功走出实验室,得到广泛应用,联机手写体汉字识别已趋于成熟,走向商业化。基于以上本文对脱机手写体汉字识别进行了研究,提出了一种基于笔画的脱机手写体汉字识别方法。因为大多数中国汉字的构成离不开横竖撇捺这四种笔画,这四种笔画在手写体汉字中所占比例如下:39.51%、33.94%、16.77%和9.78%。尽管不同的人写出来的汉字大小形状各异,但横竖撇捺这四种笔画在手写体汉字中的相对位置、距离、夹角这些特征肯定是相对稳定的,还有以前人们对手写体汉字识别大多采用了简单的统计特征提取和分类算法,这不能从根本上解决手写体汉字识别的困难。本文采用的脱机手写体汉字识别方法分为三个步骤,分别是预处理,特征提取,对提取的特征进行特征匹配识别。首先对手写体汉字样本进行预处理,本文通过对图像灰度化二值化、平滑去噪、图像切分、大小归一化、细化六个步骤对手写体汉字样本图像进行预处理。通过对手写体汉字图像的预处理,有效的保持了原始图像信息和手写体汉字本质特征,弱化或降低了原始图像中存在的各种干扰因素,从而达到达到优化原始图像的效果。当然,毫无疑问,预处理的好坏将直接影响特征提取的效率。第二步特征提取。本文采用了以下几个步骤:1.对预处理好的手写体汉字提取笔画的分叉点;2.采用最大距离法提取笔画拐点;3.提取笔画的倾斜度和端点坐标;4.修复预处理时不可避免产生的各种畸变;5.合并预处理时产生的伪交叉点等;6.构造手写体笔画结构特征。第三步匹配识别。在笔画特征匹配识别阶段,本文首先把手写体样本汉字的笔画作为特征存储到模板库中从而建立笔画模板库,接着训练笔画模板库,然后将每一个待识别手写体样本汉字与系统的笔画模板库进行匹配比对,并计算待识别手写体样本汉字与模板库中每个汉字的组合距离,选取其中最小距离进行分类识别。
其他文献
随着信息技术的快速发展,计算机系统给人们的日常生活带来了很大的便利,因此人们也越来越依赖计算机。尤其用户平台的移动性在日益增强,用户平台软件的漏洞也越来越多,而黑客
天气预测本身无论对于国家还是个人都有其特殊的意义,它与军事、农业、航空航天以及人民生产生活都息息相关。人工神经网络自诞生以来经过几个阶段的起伏发展,逐渐体现出其特色
随着遥感技术的快速发展,传感器的类型日趋多样,数据的类型和级别得到了很大的丰富,表现出了多格式、多尺度、分散存储等特征。遥感数据分散存储在不同的地域或者不同的部门,数据
在国内外对于无线传感器网络的研究中,能量消耗与扩充网络的有效期一直以来都是一个至关重要的问题和研究热点。由于传感器节点的能源限制,对于已经部署好的节点来说,替换可
在传统的客户机/服务器(Client/Server,C/S)体系架构的企业应用系统开发中,数据一般存放在服务器上,应用程序一般存放在客户端计算机上。这样的系统虽然解决了数据共享等问题
P2P(Peer-to-Peer)流媒体共享系统是当前非常流行的一项技术,在越来越多的网络应用中发挥着重要的作用。在其中,RealNetworks公司的RM(Real Media)格式文件是非常重要的一种流
医学图像的三维重建,也称为医学图像的三维可视化,是当前科学可视化研究中的一项重要内容,是数字图像处理、计算机图形学在生物工程领域的重要应用。医学图像的三维重建可以将采
本文首先介绍了搜索引擎的发展现状,探讨了末来的发展趋势。在对搜索引擎相关技术进行了阐述之后,对搜索引擎中网页快照技术进行了研究。目前保存于搜索引擎服务器海量缓存中的
本文阐述了校园网络建设的时代背景、技术支持方案,并详细阐述了数字化校园内部综合管理系统设计的全过程。对网络系统规划、网络结构、硬件架构、综合布线方法以及管理系统中
随着3G通讯技术蓬勃发展,无线网络带宽迅速增长,以及移动终端运算能力的不断增强,使得移动终端可以获得传统有线网络视频服务,移动流媒体通讯技术成为了近年来网络技术发展的