基于图的手写汉字切分与识别技术研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kim_xt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离线手写汉字识别中,字符的正确切分是实现传统OCR(OpticalCharacterReading)技术可用性的基本因素。然而,对于自由手写汉字字符串,在识别之前无法可靠地对字符实施分割,主要困难来源于字符大小、间距的变化和相邻字符之间的粘连。找到所有的候选切分位置是成功分割的前提。根据候选切分位置构造候选字符模式,由候选字符模式识别结果的有效性可以做出切分决策,其中需要将字符分类结果和语言知识合并到分割中。利用语言知识的策略以及分割与分类的实施,均依赖于特定的应用背景,语言知识可以用于候选字符识别或识别假设的后处理。 对于存在字符间粘连的手写体汉字串,在图像上精确定位包含所有分割位置的候选切分位置集是很困难的。然而,汉字是由简单笔划按照特定的关系构成的,粘连汉字的分割点在笔划结构上通常是清晰的。 本文提出了一种基于笔划结构图的手写体汉字切分与识别方法。通过提取汉字的笔划结构并以图的方式予以表达,将汉字的切分与识别转换为图的分割和识别,运用图论进行汉字的切分。对于由多个连通部件构成或者发生内部断裂的汉字,可以通过笔划结构子图的合并构成候选的字符模式;而彼此粘连汉字的切分就是相应图的分割。采用基于骨骼的笔划提取方法,提取汉字的笔划结构;从笔划结构图上直接计算笔划方向特征,采用特征值误差补偿和非对称分布模型对候选字符模式进行分类;针对特定的应用背景,采用词典驱动的切分与识别策略。 基于骨骼图像的笔划提取取决于特征点的提取,特征点集合的完整性是提取正确笔划结构的前提。 预分割是基于子图合并的切分与识别策略的基础。预分割并非一定要求提取单个完整的字符,如果在词图上存在一条从源点到终点的路径,该路径上的边构成相应的字符序列,则预分割的结果就使得正确分割成为可能。 笔迹重构是从字符的静态图像中提取笔迹顺序信息,有助于将在线识别方法应用于离线识别问题,以及实现单个手写字符识别和字符序列识别方法的统一。 在已经提取笔划结构的情况下,当然可以采用结构匹配的方法进行汉字识别。然而,基于降低技术难度和提高稳定性的考虑,本文采用了统计模式识别理论与方法进行汉字识别,直接从笔划结构上计算笔划方向特征,综合利用了汉字笔划结构稳定和统计方法抗噪声干扰的优点。 马氏距离是在多变量正态分布概率密度函数的假设下推导出来的,然而,汉字字符样本的分布与正态分布假设有明显的差异。当可以利用的样本数量有限时,主向量分析(PrincipalComponentAnalysis)计算的特征值通常包含误差。因此,需要采用改进的马氏距离来计算未知模式的特征矢量与某类的均值矢量之间的距离。 词典驱动的方式在英文单词识别中已有广泛的应用。汉字类别繁多,采用词典驱动的方法进行词语识别,是针对特定应用背景的一种有效的解决方案。 本文对上述问题进行了深入研究,主要创新体现在以下方面:1.采用基于识别的手写体汉字切分策略,并将其转换为相应图的分割。2.基于骨骼的特征点直接提取方法,保证笔划提取的可靠性,并基于笔划结构直接计算笔划方向特征。3.基于图分割的汉字切分方法,字符切分就是相应笔划结构图的分割。4.基于笔段关系图的笔迹恢复技术,笔迹重构实质上就是笔段的排序问题。5.基于次特征值误差补偿和优势主向量上非对称分布的马氏距离改进算法。6.基于词典驱动的识别策略,搜索时遍历词图,选择对应于词典中有效词语的最小代价路径,减小了搜索过程的复杂性。
其他文献
ASP(应用服务提供商)是一种新的信息处理模式,正在改变目前商业应用程序的交付和管理现状,它通过Internet提供给企业各种应用程序,即安全,又可靠。为了在日益激烈的市场竞争环境
铝的生产最主要的阶段是在电解槽中完成,槽电压和槽温度是铝电解生产过程的重要参数,所以这两种参数检测水平的高低对铝电解生产有举足轻重的意义。在实际生产中,不仅铝厂工
随着现代化工业生产过程中复杂性与集成化程度的增加,在工业控制中现场总线控制系统得到了越来越广泛的应用。相对于传统的控制系统,大大简化了系统结构,降低成本,更好地满足了实
随着卫星电视数字化进程的加快,我国的模拟卫视频道正逐步完成数字化转换并终止播出。与接收模拟信号相比,接收数字信号存在着有门限,频带窄等因素。这使得接收数字信号要比接收
近年来,开放式运动控制系统己成为新一代运动控制系统的主流。开放式运动控制系统不仅具有信息处理能力强、结构化程度高等优点,而且从很大程度上提高了系统的柔性,因此在机器人
近年来,自动身份认证技术成为了生产生活中的一项迫切需要的技术,其中生物特征认证技术获得了全世界的广泛关注,因其具有较高的可靠性,吸引了大批的科研人员和有实力的知名企业从
作为一种以应用为中心,以计算机技术为基础,软硬件可剪裁,适应应用系统对功能、可靠性、成本、体积、功耗要求严格的专用计算机系统,嵌入式系统在信息家电、工业控制中得到广泛的
面对日益膨胀的城市快速路交通需求,匝道控制是改善快速路交通状况的有效方法之一。在城市快速路的多种控制策略中,入口匝道控制是应用最广、效果最好的一种控制方法。随着计算
随着世界各国对于非安全因素的防范意识的提高,智能视频监控系统也得到了越来越广泛使用。遗留遗失物品检测是智能视频监控系统中的重要组成部分,在火车站、飞机场、博物馆等公
随着海洋开发的进一步增强,对于具有船舶动力定位功能船只需求大量增加,船舶动力定位系统中执行机构推进器在动力定位系统中起到非常关键的作用,如何使动力定位系统中全回转推进