【摘 要】
:
网络与多媒体技术的高速发展带来了对信息的巨大需求。如何将文献信息输入计算机进行加工、处理已成为信息化建设的重要问题。目前主流OCR (Optical Characters Recognition,
论文部分内容阅读
网络与多媒体技术的高速发展带来了对信息的巨大需求。如何将文献信息输入计算机进行加工、处理已成为信息化建设的重要问题。目前主流OCR (Optical Characters Recognition,光学字符识别)技术虽然能够高速、自动地将印刷体文字信息输入计算机,但对于结构复杂、符号多变的数学公式仍然无能为力,只能将其按图片形式存储,不能进行重构和编辑。公式是科技文献的重要组成部分,一个无法处理公式的OCR系统,对科技文献的数字化是没有意义的。因此,数学公式识别问题已经成为模式识别领域炙手可热的课题,具有重要的理论意义和良好的应用前景。数学公式识别系统包括四个处理模块:公式抽取,公式字符与符号识别,公式结构分析和公式重构。本文针对公式识别中的关键环节——公式结构分析展开研究,设计了能够分析常见结构类型的包含多层嵌套结构的公式结构分析算法。首先根据字符与符号属性特征计算外围位置信息;然后运用基线原理递归分析公式中相邻符号的空间关系,构建结构关系树;之后利用定位符号控制域的方法分析绑定符号,并引入三角区域定位上下部和动态阈值定位上下标的分析方法,克服了单纯运用基线法的不稳定问题;最后针对实验中出现的问题,通过建立回溯查漏机制,界限符号的特殊处理方法以及基线阈值的再修正方法,提高了算法的适应性。对不同类型印刷文档的对比实验表明,本文设计的结构分析方法能够取得较高的正确率和令人满意的处理速度。
其他文献
随着数据量爆炸式的增长,导致存储成本的不断上涨,同时加大了数据存储管理的难度。云存储作为一种“基础设施即服务”的表现形式,能够提供一个高性能、低成本、易管理、虚拟化的
随着人们对各种应用需求的增加,网络也朝着多样化发展。在某些网络中,节点是不断移动的,节点之间的消息传递依赖于节点的相遇机会且得不到可靠的保证。网络中的移动节点具有间歇
随着Internet网规模的急剧扩大,网络用户越来越多,给电子商务的发展和普及提供了广阔的发展空间。网络上的信息量爆炸性地激增,但是网络中信息组织是非结构化或半结构化的。如何
随着显示技术的进步以及人们对阅读舒适度要求的不断提高,电子阅读装置的显示屏越来越大,色彩越来越丰富,与此同时,人们对于电子读物版面描述能力的要求也在不断提高,电子读物的版
本文主要介绍了基于USB系统的DSP仿真器的开发与实现,在实现过程中既有硬件的设计与实现,又有软件的研究与开发,从而实现整个系统的运行。 论文首先介绍USB的体系结构和特点,
随着互联网络的不断发展,网络应用已深入到日常生活的方方面面。互联网上的各类服务,在为用户提供方便的同时也积累了大量的数据,如何有效的利用这些数据已成为一个重要课题。基
嵌入式技术的飞速发展以及电子纸显示技术的逐步成熟为手持阅读应用提供了良好的土壤。V2手持阅读器是专门针对用户静态阅读需求的嵌入式设备。它的电子纸屏幕印刷系统和文档
IP电话是当今Intemet增值业务研究的一个技术热点,具有广阔的应用前景。网守是基于H.323技术构建的IP电话系统的重要组成部件。本文分析了H.323协议,对网守系统做了详尽的需求
在智能多摄像机协作监控系统中,目标匹配是一个重要且研究难度较大的问题。对于大型的多摄像机网络,难以对摄像机进行标定,因而缺少可用的时空关联信息,在目标匹配的时候往往只能