论文部分内容阅读
PDF文档凭借其在表现与传输等方面的优势得到了愈来愈广泛的应用,成为互联网上各种文献存在的主要形式和检索技术需要处理的重要资源;因此,研究含有数学表达式成分的PDF文档的快速鉴别问题,是实现数学资源收集与数学内容检索的前提和基础。针对代码型PDF文档,本文设计了一种基于层次策略的快速鉴别PDF数学文档的方法。首先,对PDF文档进行解析和信息提取,获取其内容信息,并在PDF文档所对应图像中获得字符的边界信息;然后,根据获得的符号内容信息及边界信息,从几何特征层次、符号内容层次以及融合几何特征与符号特征的层次上,对PDF文档中是否含有数学表达式进行鉴别,从而判断出该PDF文档是否含有数学内容,即该PDF文档是否属于PDF数学文档,从而为进一步的数学表达式索引与匹配打下基础。实验表明,该方法能够对主流规范的PDF文档实现快速有效的数学属性鉴别。