基于SVM的脱机手写体汉字识别研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:xllq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脱机手写体汉字识别目前仍然是模式识别中最困难的问题之一,因而也是手写中文信息化的主要障碍之一,它的研究对汉字信息处理自动化及开拓新一代计算机的智能输入都有着重要的意义。由于脱机手写体汉字是一个超多类复杂模式识别问题,以往的研究显示,要想得到较高的识别率,需要集成多种识别方法,但同时也增加了系统开销。支持向量机理论是基于统计学习理论基础上的,有较好的理论框架。它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。脱机手写体汉字识别属于复杂高维模式识别问题,将SVM理论运用于脱机手写体汉字的识别有较大的理论意义和实践价值。论文所涉及到的主要内容如下:(1)概论。阐述了脱机手写体汉字识别研究的目的和意义,并对当前在此研究领域内存在的困难进行了说明。通过汉字识别已往的研究历程和现在的发展现状总结了汉字识别的一般原理与方法。(2)脱机手写体汉字自动录入接口设计。设计了一个脱机手写体汉字扫描过程自动人机接口模型。利用TWAIN协议(计算机应用程序与光栅图像获取设备标准通信协议),无须人为操作,应用程序将纸质文档的手写汉字信息按照人为设置要求自动录入计算机成规定格式便于后期预处理、特征提取和识别,从而提高了效率。(3)脱机手写体汉字样本的收集及图像预处理。采用设计专用表格的方式对年龄分布段为18~60岁的不同职业、性别、学历的人的一般手写字体进行样本收集。受人员和经费的限制,收集的汉字类别为GB2312-80一级字库中的前50类汉字,每类汉字收集108个样本。对收集的汉字样本进行灰度化、二值化,倾斜校正,表格标记定位,汉字切分,归一化处理形成样本库。(4)特征提取。将网格方向特征作为手写体汉字特征。阐述了4种弹性网格构造方法,并对它们在吸收手写体汉字形变能力和算法性能方面作了分析和比较。对3种汉字方向分解法进行阐述和分析,得出3种方法各自存在优点与缺陷,适用于不同的应用环境。经综合分析,本文选取基于点密度均衡的弹性网格构造法与3种汉字方向分解法组成3种手写体汉字特征(骨架特征、边缘特征和笔画特征),其中,本文针对AND分解和OR分解得出的相应骨架特征的各自特点,将骨架特征进行了改进,融合了两者优点,形成新的骨架特征。本文对这3种特征提取算法在时间复杂度和反映汉字笔画准确度方面给出了定性的比较分析。从实验结果可以看出这3种特征都能有效反映出手写体汉字的特征。(5)基于支持向量机的汉字识别。本文首次将上文所提的骨架特征、边缘特征和笔画特征用于支持向量机分类器,利用支持向量机理论通过对少量汉字样本的学习获得推广性能良好的识别器。该方法在对每个汉字仅用几十个样本学习的情况下就能取得较好的识别效果。本文研究对象为少量常用汉字,研究目标是探索SVM理论在非特定人低限制手写体汉字脱机识别的有效性。实验选取了国标GB2312-80一级字库中的前50个汉字,每个汉字108个样本,共5400个汉字样本,采用LibSVM2.86分类器对样本进行训练和识别,实验取得了较好识别结果。
其他文献
广西巴马是世界级长寿之乡。人类长寿的奥妙关系如何?这是人们一直非常关注的重要问题。由于各种原因,巴马以长寿作为重要旅游资源的唯一性、独特性、稀有性和惠众性多年来一
近年来,数字视频技术与网络技术的快速发展推动了围绕视频点播的各种流媒体业务的广泛应用。视频点播技术是随着计算机技术和网络通讯技术的发展,综合了计算机技术、通讯技术
随着Internet的发展和普及,电子邮件也得到了广泛的应用。电子邮件在给人们带来方便的同时也产生了一个新的问题,即大量垃圾邮件的出现。垃圾邮件作为电子邮件的副产物日益影
近年来随着多媒体技术、计算机技术和网络技术的不断发展,使视频的实时传输得到了广泛的应用。视频实时传输中庞大的数据量、对实时性的高要求和目前的网络带宽不足之间的矛
基于描述逻辑的本体是构建下一代互联网——语义Web的重要基础。本体语言使用含有语义的元数据对分布的网络资源进行描述,并利用描述逻辑提供的推理工具,作为知识共享的媒介,使
对于自然界中的任何物体,纹理都可以描述其表面错综复杂的细节。纹理合成技术是根据已有的纹理信息,合成与其相似的大面积纹理。该技术近年来受到了越来越多的关注,目前已成为图
虚拟现实技术作为一项在二十世纪末兴起的一种崭新的信息技术,在许多领域有着广泛的应用和良好的发展前景。目前,很多高校都对虚拟现实技术做了研究,但是在模型的复杂度、真实感
软件从它诞生之日起,就受到各种各样潜在软件故障的折磨。随着软件实现功能越来越多也越来越强大,其携带的潜在的故障也越多,随之也带来更多的安全性问题,如果这些潜在的故障一旦
随着计算机网络技术的飞速发展和企业对网络技术应用的不断增多,局域网内部安全问题已成为人们越来越关注的一个问题,而局域网内部安全问题的根本,是主机的文件及进程的安全问题
软件可信性问题是可信计算领域的研究分支之一,也是近年来研究的重要焦点。软件的“可信”是指软件系统的动态行为及其结果总是符合人们的预期,在受到干扰时仍能提供连续的服务