基于语言模型的OCR识别后蒙古文文档错误校正方法的研究

来源 :内蒙古大学 | 被引量 : 4次 | 上传用户:gdgyhpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络已经成为人们共享信息的一个大平台。文献资料数字化技术的出现满足了人们获取信息的需求。将纸制版和图片形式的蒙古文文献资料进行数字化处理有利于蒙古文资料的管理、利用和传播。在数字化处理过程中,OCR (Optical Character Recognition)识别后的蒙古文字符会发生识别错误。因此,对蒙古文文档进行错误校正具有非常重要的研究意义。本文首先根据蒙古文的语言特点制定规则库,将大量国标码形式的语料根据规则转换为智能编码形式的语料,完成蒙古文语料库的构建。其次,对语料库进行训练,建立N-gram语言模型,并用平滑算法解决数据稀疏问题。然后,对比原始蒙古文文档和对应的识别结果,统计字符识别情况,建立OCR字符混淆模型,将混淆概率较高的字符作为易错字符。最后采用语言模型对OCR识别后蒙古文文档中的易错字符进行错误校正。实验结果表明基于语言模型的错误校正有着较好的校正效果,校正后OCR的系统错误率由1.91%降低到0.66%。
其他文献
意识形态工作是高校党建、宣传与学生工作的重点工作。随着社会的不断进步与发展,艺术类高校在意识形态工作方面要顺应时代趋势、积极应对各方面挑战,落实意识形态工作责任制
介绍了IEEE802.16标准规定的两种组网机制:点对多点与网格网,及其组网特点、帧结构以及入网初始化进程,并对两种组网机制进行了比较和总结。
本文概述了Ad hoc网络及其特点、结构等;阐述了有线网络的分组调度算法在Ad hoc网络中的局限性;重点介绍了几种现有的典型Ad doc网络的分组调度算法。
汽车工业与国民经济发展总体水平的关系密不可分,基于汽车零部件精密装配的自动化生产关键技术研究,以精密零部件的定位和组装问题为中心向汽车工业的其他领域扩展。由于精密
提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模
为定量评价使用生成对抗网络生成的恒星和星系图像的质量,提出了感知损失函数与Mode score相结合的双样本评价方法。通过对几种常用的生成图像定量评价方法的优缺点的分析以及对感知损失函数进行的改进,得到了能够定量评价生成图像多样性和视觉质量的双样本评价模型。为了验证提出方法的有效性,分别采用Inception score,Kernal MMD,Wasserstein distance及双样本评价方
本文主要介绍了移动通信技术的多址方式及CDMA的基本原理,描述了CDMA移动通信系统的主要特点。
在分析NAT、防火墙穿越技术的基础上,此文着重分析和讨论了基于H.323协议的语音、视频等媒体流的穿越技术及其实现方法。
目前,“产教融合、校企合作”,进一步完善校企合作育人机制,提高技术技能人才培养质量,是当前推进人力资源供给侧结构性改革的迫切要求。在中等职业教育阶段开展“现代学徒制
为了避免使用用户接收机的初始坐标信息和求导与迭代计算带来的复杂性,研究了一种GPS静态伪距方程的代数解算方法。通过直接求解伪距方程,有效简化了计算,在保证一定精度的前