印刷体汉字识别后处理方法的研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:pigdun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。
其他文献
反倾销法的价值取向应体现对公平竞争的追求和自由贸易秩序的维护。但长期以来,反倾销法的实际功效与价值取向一直相背离。反倾销法价值取向的回归应以公平竞争和自由贸易为
<正> 1995年6月30日,全国人大常委会通过了《关于惩治破坏金融秩序犯罪的决定》(以下简称《决定》),设立了有关金融诈欺的犯罪,为惩治金融诈欺犯罪提供了法律根据。本文拟对
小班化教学顺应了小学语文教学的实际情况,在小学语文教学中运用具有重要的现实意义。在小学语文教学中,为了更好地进行小班化课堂教学,需要根据实际情况采取相应的教学策略,
随着信息技术的飞速发展,网络安全问题日益突出,校园网站作为一个学校的形象,如何保证校园网站被正常地浏览,不受各种网络黑客的侵害已经成为当前各高校网站管理人员不可忽视
"逻辑是关于推理有效性的学科,推理中前提和结论之间的关系叫做"后承关系"。逻辑后承关系中的,保真性,必然性,相干性,独立性等,体现了逻辑后承关系的哲学预设。从逻辑后承的
随着美国次贷危机的蔓延,资产证券化风险问题引起人们高度重视。资产证券化已成为当今世界资本市场发展最快的金融产品之一。发展资产证券化,有利于我国分散过度集中于银行的
简要介绍基于三菱可编程控制器和威纶通触摸屏的雷管自动装药机控制系统的软硬件设计,对雷管装药工艺流程及控制程序进行了较为详细的表述。
李渔和布莱希特是来自不同国家、身处不同年代的戏剧理论家。他们的戏剧理论虽然有不同之处,但也有很多相通之处。布莱希特戏剧理论的核心是"间离效果",在李渔的理论论述和实
园林景观与中国风景园林的设计是一种美化环境,体现艺术魅力,提供人性化的服务行业,它能够将自然风光与文化紧密的联系在一起,给人一种美的感受。但是,随着人们精神文化需求
文章以3G核心网电路域为重点,分析了呼叫业务流程,通过对接续时长和话音质量优化的解析阐述了核心网的优化,并给出了应用实例,最后介绍了核心网优平台实现的功能,以指导日常