基于层次策略的PDF数学文档快速鉴别研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:duidui1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PDF文档凭借其在表现与传输等方面的优势得到了愈来愈广泛的应用,成为互联网上各种文献存在的主要形式和检索技术需要处理的重要资源;因此,研究含有数学表达式成分的PDF文档的快速鉴别问题,是实现数学资源收集与数学内容检索的前提和基础。针对代码型PDF文档,本文设计了一种基于层次策略的快速鉴别PDF数学文档的方法。首先,对PDF文档进行解析和信息提取,获取其内容信息,并在PDF文档所对应图像中获得字符的边界信息;然后,根据获得的符号内容信息及边界信息,从几何特征层次、符号内容层次以及融合几何特征与符号特征的层次上,对PDF文档中是否含有数学表达式进行鉴别,从而判断出该PDF文档是否含有数学内容,即该PDF文档是否属于PDF数学文档,从而为进一步的数学表达式索引与匹配打下基础。实验表明,该方法能够对主流规范的PDF文档实现快速有效的数学属性鉴别。
其他文献
随着计算机和虚拟现实技术的发展,几何造型已经成为一种重要的工具得到广泛的应用。在生态学和农学研究领域,几何造型技术也引起了研究者越来越多地关注,通过应用几何建模技术和
随着计算机多媒体技术和网络信息技术的蓬勃发展,各种基于网络的教学模式应运而生。结合教学原理策略,建立反映学习者个性特征的学习者模型,建立动态适应性的导航机制,有效地为不
近年来Web服务的理论和技术取得了长足的发展,其保证互操作性的协议栈下层在学术界和工业界已基本达成一致.然而Web服务的价值在于服务重用,新兴的Web服务组合正是主要的重用
随着互连网技术的发展和政府机关管理职能上的加强,原有的手工流程办公模式不但造成效率低下和浪费资源,并且在公文流转、审批的过程中容易产生信息丢失和泄密,以及不能有效
随着实时成像跟踪技术在各个领域的广泛应用,特别是在军事和科学研究领域,对成像跟踪系统的要求越来越高,要求系统响应更快、精度更高。为了满足运动目标跟踪系统的高精度、
现代信息社会的高速发展是以计算机和通信网络技术的迅猛发展为标志的,随着计算机网络技术的发展,基于网络的计算机应用系统己经成为主流,与此同时,网络信息的安全保密问题也日益
本文探讨了一种使用以C8051F020为代表的片上系统(SOC)单片机为核心的单片机实验系统设计,该系统可以实现专业基础课、专业课(单片机原理与应用,接口技术等)、课程设计和毕业设
嵌入式实时数据库系统是指可在嵌入式设备上独立运行的一种实时数据库系统,既具有嵌入式系统的特点,又具有实时数据库系统的特点。相对于普通的实时事务来说,嵌入式实时数据库系
在现代高技术条件下的军事斗争中,通信卫星面临的最大威胁是敌方的人为干扰。国内外有关部门都在进行相关的干扰与抗干扰技术的研究。天线方向图调零是通信卫星抗干扰技术的重
Internet的普及,为电子商务的迅猛发展提供了有利条件,也给电子商务带来了安全性问题。面对网络中众多的黑客攻击和商业间谍,电子商务必须构筑强有力的安全屏障。综合应用加密技