基于OCR的中文文本校对研究

被引量 : 16次 | 上传用户:lpflpf7337
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机等)通过检测纸质文档字符暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。当前,OCR技术已经成为纸质文档转化为电子文档最重要的手段之一。在转化过程中,当前的OCR技术并不能保证处理后的电子文档内容100%的正确,这就需要对识别后文档进行检查和校对。本课题来源于“十一五”国家科技支撑平台重点项目——“视障者阅读辅助器具的研制”。该阅读辅具是通过OCR技术和语音合成技术来实现印刷体文字向语音输出转换。所以,本课题需要研究的校对对象是OCR识别错误。课题统计和分析了常见的OCR识别错误特点,并对其进行了重新分类。然后,学习和研究了当前的中文文本校对算法,并提出了一种“基于窗口技术的改进型中文文本自动校对算法”,改进型算法充分考虑了OCR识别错误的特点以及课题应用平台的特点。相比于基础算法,新算法做出的改进主要包括在校对预处理阶段选取了一种效果更好、更成熟的中文分词系统即ICTCLAS分词系统;在文本自动查错阶段,加强了“散串”技术的应用以提高查错效率;在文本自动纠错阶段,则放弃了基础算法中的纠错方法,因为其采用同音字特征构造混淆集,不适用于OCR识别错误,改进型算法采用了待校原文与字驱动双向词典相结合的方法来提供纠错建议。最后,在Windows平台下,用C++语言在Visual C++6.0开发环境中实现了一个中文文本自动校对实验系统。然后对实验系统进行测试,测试结果表明采用改进型算法的实验系统具有更好的召回率和精确率,但是在纠错率方面,表现还是略显不足,需要频繁的与用户交互由系统用户来给出“纠错建议”。在测试结果分析完毕后,针对课题研究、实验系统设计以及论文撰写过程中遇到的问题和困难进行了总结,最后,针对中文文本自动校对的发展前景进行了展望!
其他文献
近年来,市域轨道交通作为联系城市外围区、卫星城镇与主城区的主要交通方式,对沿线的经济发展和居民的出行都起到了重要的意义。合理的市域轨道长度不仅是线网规划的宏观控制
西晋挚虞的《文章志》是一部著名的古代文学目录,曾对文学、目录学产生过重大影响。它的出现,标志着文学专门目录在中古时期已达到较高的水平。
目前,国内的大多数中小型印刷企业对基于机器视觉和图像处理理论的印刷品缺陷自动检测系统的需求相当迫切,国内在此方面的研究才刚刚起步。因此,开展此方面的研究对提高我国
信息时代全面来临,知识经济异军突起,学习比以往任何时代都更为重要。面对日益发展和变化的世界,面对世界政党政治变革潮流,作为执政党——中国共产党和它的各级党组织应紧跟
海底观测网络在海洋地质、生物、海洋地球化学与海洋地球物理等领域实现对海洋参数的长期、实时和连续观测。本文介绍了世界各国海底观测网络的研究进展,探讨了海底观测网络
随着旅游业的迅速发展,旅游整体形象的塑造也越来越受到重视,在我国许多区域已着手设计或再设计其旅游形象标志。本文指出了区域旅游形象标志在代言区域旅游形象、传播区域特
2009年,从北京市大学生服务中心组织的一次关于青少年犯罪的讲座中获悉,当今社会,大学生犯罪数量在整个青少年犯罪中占17%,其中盗窃约占七成。这一数据来自于中国犯罪学研究
2016年11月7日,媒体报道了南京多家影院映前广告居然多达19条、时长12分钟的消息。随后南京市民戴女士针对四川卢米埃影业有限公司南京绿地分公司滥播映前广告的行为提请诉讼
期刊
近几年,随着中国房地产行业的快速发展,对房地产市场所制定的调控政策、制度及法律法规的不足和弊端也显露出来,严重影响中国房地产行业的健康发展。治理和完善当前的房地产
简评班杜拉的社会学习理论唐卫海,杨孟萍社会学习理论是本世纪60年代兴起的一种理论。它的创始人是美国新行为主义心理学家阿伯特·班杜拉(Albert.Bandura1925一)。班杜拉于1952年获得博士学位。由于他的