联机手写文字的序列化与识别方法

被引量 : 0次 | 上传用户:miyinghua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着联机手写识别精度的不断提高,识别算法的复杂度也随之上升。然而,就算是目前识别性能最好的卷积神经网络模型,在识别某些用户的手写文字时也有可能只有60%左右的平均首选识别率。由于已有模型的复杂性,很难通过实时在线训练的方式让识别引擎快速适应这类用户的书写习惯,从而大幅提升针对他们的识别性能。为了解决这一问题,必须寻找一种全新的识别模型与方法,该方法既能够对书写人的不同书写特点进行实时、增量自适应,同时其计算复杂度又要足够的低,以便算法能够运行于智能移动设备客户端上,这就对联机手写识别提出了一个全新的挑战,而这方面目前还缺乏系统研究。针对上述任务,本文提出了一种将手写文字按特定的切分规则切分成基本的、语言无关的自然笔画序列,然后将该序列转化成字符串序列来进行手写字符识别的方法。本文的方法主要包括三个部分:首先,为了获得稳定的自然笔画序列,对所采集到的联机手写文字进行预处理,设计实现了稳定的笔段提取的规则和基于向量游走的笔段切分方法。然后,针对自然笔画的特征,本文对自然笔画的类型进行了扩充,并实现了自然笔画类型的识别,将手写文字的自然笔画序列转换成了与类型相对应的字符串序列。在此基础上,本文引入了字符串匹配的最小编辑距离的方法对字符串序列进行匹配与识别。为了进一步提升识别性能,我们提出并实现了笔画的模糊尺度提取模型以及基于该模型的识别候选的重排序方法。为了对序列化方法的可行性进行验证,本文将公共数据集HIT-OR3C分为训练和测试部分,对所提出的手写文字序列化和识别方法进行书写人相关和书写人无关的识别性能测试。实验结果表明,在对手写文字进行序列化后,采用最小编辑距离序列匹配方法对于手写人无关识别能分别获得55.85%和89.58%的首选和10选正确率,而在每个字只使用同一书写人的两套训练样本后,书写人相关的首选和10选正确率分别为65.92%和91.90%。而通过引入基于笔画模糊尺度的候选结果重排序方法,本文的书写人相关首选和前10选正确率大为提升,分别达到了79.87%和94.26%。由于与传统方法相比,本文方法可以有效地减少训练时间,而且可以实时地将用户书写样本加入已有模型,因此这一实验结果证明了本文方法在手写文字实时增量学习和用户自适应上的良好应用潜力。
其他文献
在当今中国社会的利益博弈中,政府与企业的博弈表现为第一部门与第二部门、权力与资本、公共人与经济人的三重博弈结构关系。在此基础上,政府与企业的现实博弈关系又具体体现
目的:了解本市小学生视力低常分布情况,观察雾视法在防治近视中的作用。方法:2002年9月对本市城区3所小学共4883名小学生进行视力普查,观察随学年增长视力低常发生率的变化。对部
目的本研究是针对肩周炎患者,分析采用综合康复治疗的效果和价值。方法选择2017年1月~2019年1月我院收治的72例肩周炎患者进行调查研究,采用随机分组的方式,将患者分为对照组
将区块链技术应用到智慧图书馆用户的隐私保护,借鉴时间戳、哈希函数、Merkle可信树及共识机制等技术构建集智慧链的防篡改、隐私加密和安全存储机制于一体的用户隐私保护架
以现实管理的眼光来透析企业生存与发展的资源,基本上可以确定为:人力资源、财力资源、物力资源和信息资源四大类。知识经济的迅速发展,使人类社会正在经受着一场新理念的洗礼。
保证担保以其设立成本之低廉、设立程序之简便,以及不致因提供担保物而限制物之效能充分发挥等特点,成为各种担保方式中最具魅力和潜力的一种方式。保证制度的起源很早,可追溯到
哈耶克的制度理论是一种特殊意义上的制度理论。他的自由主义经济学观点,使他成为反对计划经济体制的代表,他重视法律在扩展秩序(theextentedorder)中的作用,认为传统是至关
随着经济快速的发展与科技的进步,交通运输系统在整个国家所占的地位越来越重要,桥梁成为交通运输系统中非常重要的交通工具,斜拉桥显现出了相比于其他桥梁更好的性能;但在地
明中叶以来,弥漫在学术界的空疏浮泛的学风在各种因素的影响下发生着渐进式的变化,针对心学的清谈误国,一些学者积极倡导"经世致用",转而把研究的注意力倾注到以拯弊救亡为目