印刷体数学公式符号识别方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:kkhaizi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题研究印刷体数学表达式中符号的识别。 近年来,数学公式图像自动识别与理解已成为文档图像处理(DIP)领域的一个热点问题。数学公式图像识别主要包括两大阶段:符号识别与语法分析。多数学者将研究重点放在语法分析阶段,因为很多人误认为传统OCR技术能够较好的识别数学公式符号,但实际应用中却远非如此。 数学公式符号是介于普通文字字符与图形符号之间的一种符号,它在排版印刷、符号集方面都与普通文字字符有着很大的区别;而且数学公式符号图像受字体影响较大。因此设计专门的数学公式识别引擎非常必要。 本文针对这一问题,提出一个合理的、使用性强的数学公式符号识别模型,根据这一模型,实现通用、快速、精确的印刷体数学公式符号识别引擎。 该识别引擎包括预处理、字体识别、符号内容识别、后处理这一完整流程,在符号内容识别阶段,集成结构分析与统计分类的思想,并分别采用最小距离和基于ISOETRP聚类算法的决策树两种方法设计分类器。 本课题识别字符集包括普通字体符号330个,LATEX排版数学符号356个,基本囊括所有的数学公式符号;利用该系统对500个公式(约9000个符号)进行测试,识别率达到98%。说明该系统已经脱离实验室阶段,基本可以满足实际需要。
其他文献
目前大部分的数字水印应用或者只使用鲁棒水印或者只使用脆弱水印,数字水印的两种最主要的应用版权保护和内容认证就是分别使用鲁棒水印和脆弱水印。本文从结合使用鲁棒水印和
中风患者普遍存在一定程度上的运动功能障碍,如何增强其肢体肌肉力量一直是康复训练学科的重要问题。然而,传统的康复训练方法效果极其有限。脑机接口(BCIs)是一种能够连接外部设
Internet骨干链路速度的不断提高,要求Internet核心路由器必须以10Gbps或者更高的速度处理IP最长前缀匹配(LongestPrefixMatch,LPM),这一问题已成为Internet核心路由器的主要性
多媒体业务的不断发展对IP网络的服务质量(QoS)提出了更高的要求,同时网络的不断复杂化、异构化,又极大地增加了提供所需QoS的难度,如何有效地解决这个问题成为当今业界的研究热
随着广播电视事业几十年的发展,电视台、档案馆等单位积累了大批的视、音频资料。这些珍贵的资料面临着管理的困难、使用的困难,另外传统的节目使用模式也制约着电视台的发展。
人工智能是计算机科学的一个分支,是研究解释和模拟人类智能、智能行为及其规律的一门学科。自主机器人的研究是目前国际人工智能的重要研究方向之一,而国际机器人足球比赛(Rob
数字化虚拟人体,是医学与信息技术、虚拟现实技术相结合的科技性研究课题。通过人体断面连续切片构建出数据集,将医学信息数字化,为医学教育和医学临床的应用提供了理想的工
无线传感器网络是集成了传感器、嵌入式计算、网络和无线通信四大技术形成的一种全新信息获取和处理技术,它是继Ad-hoc网络之后出现的一种新型无基础设施的无线网络,能够实时监
现有的基于流的数据中心网络负载均衡方法主要以满足流的带宽需求为目的,缺乏对流的带宽需求和链路容量之间的差值的考虑,可能导致多条链路上存在大量可用的带宽容量,但无法将它
网格是近年来兴起的一个研究热点,被称为是下一代的互联网。网格计算是基于网格的问题求解,当前的研究内容主要集中在底层支撑软件以及大规模的科学应用,出现了一些重要的研究成