PDF文档中数学公式检测方法研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:sdszsh122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,电子文档成为人们获取和保存信息的核心途径。在诸多格式的电子文档中,PDF格式文档凭借其自身优点得到最为广泛的应用。而如何快速从海量PDF文档中检测出含数学公式的文档,对于以数学公式为主要成分的科技文档的检索具有重要意义。  本文总结了PDF文档的应用特点及技术特点,对PDF文档进行了解析,给出了其内容的提取步骤,之后分析了PDF文档中数学公式的特点,从其字体特征、运算符特征、语法特征等三方面入手,设计了一种数学公式检测方法。该方法通过判断有无数学字体、所含数学运算符是否在映射表中以及数学运算符是否符合数学公式语法规则来对PDF文档进行检测。通过对随机抽取的PDF文档进行实验,结果表明,该方法能够有效地进行PDF文档中数学公式的检测,为PDF公式检索打下了基础。
其他文献
无线传感器网络是由许多随机分布的传感器节点以自组织的方式形成的一种无线网络。节点间通过相互合作以完成用户发布的感知任务。最早可以追溯到上个世纪70年代,最开始主要
随着个人计算机的普及以及计算机图形软硬件技术的飞速发展,使用计算机观看电影、进行游戏已经成为人们重要的娱乐方式之一,而人们对视觉效果的要求也越来越高。因此,计算机图形
科学的发展为人类的生活提供了诸多便利,智能化被广泛应用在各个领域,人们的生活越来越丰富,旅游业也随机成为热门行业,景区游客人数大增,为了给游客提供更多便利,越来越多的自然景
校园信息化是校园发展历史上最为深刻的变革之一,推进优质资源的共建、共享、运作和应用是实现校园信息化的重要内容,是建设一流校园的必要条件之一。近年来,随着REST技术和开放
曲面造型作为CAD/CAM的核心技术,是航空、汽车、船舶、影视等领域中设计人员重要的设计工具。其中,灵活精确、自然高效的曲面变形技术一直是曲面造型中的研究热点。已有的曲面
XML在各行各业的广泛应用产生了海量的XML数据,目前工业界和学术界基本上都采用XML数据库的方式来对其进行管理。而为了保障XML数据库的查询性能,对XML查询的优化就显得格外重
植物器官的颜色表达是植物内部生理机制与外界环境因素相互作用的结果,因此对植物叶色变化过程进行真实模拟是一个具有挑战性的课题,同时也是数字植物的重要研究内容。本文以黄
计算机技术发展至今,互联网的普及率也越来越高,已经成为人们生活中必不可少的工具,特别是随着近年来移动互联网的发展,数据需求呈现分布式、终端化、规模化,面对海量数据请求服务
铁路客运是我国最主要交通方式之一,它与人们的日常生活息息相关。由于铁路客运具有旅客数量多、流动性大、人员情况复杂等特点导致铁路客运中存在各种安全隐患,建立铁路客车
近年来,随着各种类别资产的日益增多,各企业逐渐将软硬件资产的生命周期的管理纳入到企业经济效益及长远的规划和发展中来。越来越多的企业意识到随着信息化建设脚步的加快,建立