论文部分内容阅读
随着信息技术的快速发展,电子文档成为人们获取和保存信息的核心途径。在诸多格式的电子文档中,PDF格式文档凭借其自身优点得到最为广泛的应用。而如何快速从海量PDF文档中检测出含数学公式的文档,对于以数学公式为主要成分的科技文档的检索具有重要意义。 本文总结了PDF文档的应用特点及技术特点,对PDF文档进行了解析,给出了其内容的提取步骤,之后分析了PDF文档中数学公式的特点,从其字体特征、运算符特征、语法特征等三方面入手,设计了一种数学公式检测方法。该方法通过判断有无数学字体、所含数学运算符是否在映射表中以及数学运算符是否符合数学公式语法规则来对PDF文档进行检测。通过对随机抽取的PDF文档进行实验,结果表明,该方法能够有效地进行PDF文档中数学公式的检测,为PDF公式检索打下了基础。