印刷体汉字识别系统研究与实现

被引量 : 0次 | 上传用户:pangpang925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
印刷体汉字识别的基本用途就是把汉字自动输入计算机,实现人与计算机之间的信息交换。汉语与西方语言不同,西方语言是拼音文字,而汉语是表意文字,西方文字结构简单,字数少,容易识别;汉字字数多、字体多、结构复杂、一字一形识别起来有一定的难度。但是,研究汉字识别,对我国现代化、信息化建设有重要意义。本文以国家标准GB2312-80中第一级常用汉字共3755个汉字为字库,对汉字识别系统的三个主要部分:预处理、特征提取和匹配识别分别进行阐述。文章对这三个方面进行了仔细的研究,同时做出了改进。与原方法相比,改进后的算法在效率上有了很大的提升,实现了文档图像的自动处理。主要工作如下:(1)图像预处理的主要任务是解决由于印刷质量和文字字体不同而造成的识别困难,为文字特征的提取和识别创造条件。在预处理过程中,图像的二值化主要用来消除光电转换中引起的噪声,使背景像素和目标像素的对比更加明显;版面分析用来分离特殊像素和文字像素;文字的细化是为了使文字的特征更加集中。在预处理中,本文重点对文字的细化进行研究,通过数学形态学的击中击不中算法对汉字细化方法进行改进。实验结果表明改进后的细化算法,能够保留汉字的主要特征,具有较好的连通性。(2)在文字特征提取环节,本文分析了现在常用的文字特征类型,如:繁简度特征、连通体及封闭区域特征、外围及网格特征等。在研究了这些特征提取算法的优缺点的基础上,本文对文字繁简度特征算法进行了改进,并提出了基于汉字笔画穿越和能量密度值特征,在很大程度上提升了本套印刷体汉字识别系统的识别效果。(3)单个汉字分类器因为自身存在的缺陷,会使识别结果很难达到理想值。这时就需要将几种分类器进行组合,利用各分类器的优点互补提高识别效果。本文在已有的几种集成算法基础上,提出了综合识别率和识别速度的最大优化集成法。该方法通过代价函数,将识别率和识别速度进行统一,寻找最佳的结合点,从而提高系统的整体性能。
其他文献
目的分析Graves病患者性别相关的临床特点。方法以问卷形式调查2009年10月至2011年2月在解放军总医院内分泌科门诊就诊的1140例Graves病(GD)患者的一般情况、Graves病家族史
官印制度是国家政治制度史的重要组成部分,研究两汉的官印制度对深入了解汉代社会政治制度和秦汉史有着重要的意义。本文以汉代官印制度为主要研究对象,将传世文献、实物和出
进入21世纪以来,国家电网建设了越来越多的超高压、特高压电网,随即使得电力系统的电压等级越来越高,这就使得系统发生故障时的短路电流越来越大,就对电力系统的接地网设计与
食用油是日常生活中不可缺少的重要食物。随着人民生活水平的不断提高,中国消费市场对食用油的需求量日益增加,中国已经是全球最大的食用油消费国。但是,中国食用油产业存在
在神经外科手术中,硬脑膜替代物对于维持解剖学的完整和脑组织保护是十分重要的。近年来,随着组织工程和生物材料研究技术的发展,人工硬脑膜的研究取得许多进展。本文对人工
本试验于2016年在山西省平陆县进行,以当地主栽品种秦烟96为试验材料,主要研究了不同时期断根对烤烟质量的影响,探讨了不同时期断根处理对当地烤烟的烤后烟叶化学成分、烤后
文化、价值观与外交政策是软权力的三个基本来源。其中,外交软权力包括合法性权力、话语性权力与结构性权力三个层次。合法性权力指国家对外政策的道义基础与法理基础;话语性
传统的基于动力学建模的足式机器人运动控制方法非常复杂,不利于机器人实现快速稳定的运动,难以实现对未知非结构化环境的适应性。本论文以四足仿生机器人为研究对象,通过对
背景:高磷血症是终末期肾脏病(ESRD)患者的常见并发症,可见于约70%ESRD患者中。高磷血症可引起钙磷代谢异常、继发性甲状旁腺功能亢进,继而导致肾性骨病、组织器官的转移性钙
文化外交是日本提升其软权力的重要方式,在当代日本的文化外交中,流行文化是其凭借的一个重要工具。流行文化只是软权力资源的其中一种,它并不一定能够对其他行为体产生吸引,