印刷体文档中的数学公式识别技术研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:cychenying2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着计算机技术的不断发展,信息资源的电子化成为至关重要的问题。数学公式是许多科技文献的重要组成部分,由于手工输入困难,自动输入技术的研究尤为重要。现有的OCR(Optical Character Recognition)技术虽然对中英文字符和数字等符号都能获得较好的识别效果,但是无法正确处理数学公式。其原因在于数学公式具有复杂的二维嵌套结构,并且公式符号含义具有多样性,这使得数学公式在识别和结构分析方面存在很多困难。因此,数学公式识别已经成为OCR领域的一个研究热点。本课题研究的是印刷体文档中的数学公式识别问题。印刷体文档中数学公式识别系统主要包括三个组成部分:公式提取,公式识别和公式结构分析重构。由于字符识别技术相对成熟,本文的主要工作是数学公式的提取和公式的分析与重构。本文对公式提取和公式的分析与重构做了较深入的研究,主要从以下的两个方面进行了改进。首先在公式提取阶段结合数学公式自身的特征,提出了一种基于模糊C-均值算法的印刷体数学公式提取方法。模糊C-均值算法利用数学公式行与一般的文本文字行的行间距、宽高比、行密度的不同,将数学公式行提取出来。通过这种方法可以有效的提高提取数学公式的识别率,改善字符分割的质量,在试验中采用该提取算法取得了较好的效果。其次在公式的分析与重构阶段,利用基准线找到中心点在同一阈值内的字符,根据各个字符之间的位置关系,放在不同的子节点中,构建出初始结构树;然后利用语法和语义知识将结构树转化成以运算符为子节点,操作数为叶子节点的树,最终得到输出结果。
其他文献
过程层析成像(PT)技术在解决多相流检测问题上具有巨大的发展潜力和广阔的工业应用前景。电容层析成像(ECT)技术作为过程层析成像技术的一种重要方法,是基于电容敏感机理的过
基于国内高速公路交通急需智能化管理这一情况,本文设计了一种基于视频检测技术的高速公路超速抓拍系统,整个系统通过工业控制计算机对外界视场进行监控并配备相关的软件协同
随着超大规模集成电路的迅速发展,SoC(System-on-a-chip)片上系统设计面临着系统复杂性的不断增加、设计周期的逐渐缩短、以及非功能性需求(如:低成本、低功耗等)日趋增强等挑
随着计算机技术的发展,特别是网络多媒体技术的发展,多种实时应用以及非实时应用共存于一个实时系统中的情况也会越来越普遍。实时系统需要对服务质量(Quality of Service,Qo
无线传感器网络是一种自组织、可快速配置且无需固定基础设施的多跳无线网络,它能够实时监测、感知、采集和处理各种监测对象的信息,在军事、环境监测、医疗以及工业生产等方面
多年来,虚拟战场仿真技术一直是军事领域关注的焦点,许多发达国家都对这方面进行了深入研究。但由于以往在图形学渲染技术以及计算机硬件上存在着限制,人们更专注于提高仿真
随着科技的迅猛发展和图像采集设备的广泛应用,图像获取的方式越来越多。图像作为我们获取外部信息最直接的方式,其记录的信息十分丰富,主要体现在亮度、对比度、颜色信息等
学位
随着Internet的发展,路由信息不断增加,路由表急剧膨胀,路由查找问题越来越成为影响网络通信速度的瓶颈。未来IPv6的应用将会使这一问题更加明显,而当前已有的算法很难满足IPv6快
伴随着中国移动的战略调整以及通讯运营市场日益激烈的竞争,安徽移动客户服务中心业务职能和管理模式也在不断进行调整。客户服务中心对外是联系客户的桥梁,对内则是通过流程