论文部分内容阅读
科技文献是一种多模态数据,除文本外包含多种信息,比如图像、公式、表格、音频、视频、超链接等,这些信息相互解释、相互补充,为用户充分理解科技文献中的信息提供帮助。其中表格以其简单明了的风格占据十分重要的地位,大量的文献借助表格来补充文本信息,更加直观简洁的描述文本想要表达的内容,因此对表格信息的提取逐渐成为一个研究重点。而目前大量的各种类别的信息目前以各种各样的电子文档的形式展现,表格的收集、传递和保存信息的作用不同和文档类型的不同,造成表格形式千差万别,没有统一格式,对表格的数据的抽取不仅要依据类型来进行,而且表格处理的工作量决定了人们将更加依赖计算机来帮助进行。 在本文中,笔者将研究基于图像的表格识别和基于文字流的表格识别。基于图像的表格识别研究较为成熟,主要步骤有:图像预处理,包括灰度化与二值化处理,图像的边缘检测,图像的倾斜校正,划定表格区域,表格单元格拆分,单元格数据利用OCR提取,单元格合并以及数据对应关系确定并转换成EXCEL格式,对单元格数据进行语义判断确定“属性一值”对关系,建立索引。PDF文档会有两种情况,一种是图像类型,一种是文字流类型,图像直接用图像表格提取的方法来进行,对于基于文字流的表格识别研究比较困难,文字流中的表格仅仅是基于视觉的没有表格信息,因此笔者从解析后的文档出发,利用文字流的编码特征来进行,分析文字流节点信息,主要是图像对象中包含的图像流信息结合内容流中的相关描述信息,利用图像对象描述的最长横线与竖直线划出表格区域,借鉴图像处理中局部霍夫变换的思想确定每个单元格的位置信息,并将单元格内容建立逻辑关系,为表格中的数据建立真实表格,因为时间有限,在这一方面的理论研究较强。 在本文中,为了本文构建的系统功能的完整性,分析了五类表格文档:Word、Excel、HTML、图像、PDF文档。笔者利用爬虫获取大量的表格文档,对表格文档进行分类清洗,利用插件和上述算法,将表格数据抽取出来并转换成Excel或者TXT格式,并为表格数据建立语义索引,使用户查询、检索以及重新利用表格中丰富的数据资源。 本文中具有创新性的研究成果主要体现在以下几个方面: (1)表格的语义化索引。本文中利用团队研究的基于Lucene的语义化搜索引擎的构建方法,判断单元格数据的类型为属性词或者属性值,并为表格中的数据附上语义信息,构建一个树状结构,使原本只有物理结构的表格数据拥有对应的逻辑结构和语义信息。 (2)开发一个表格数据抽取与检索搜索引擎。该平台支持将输入的表格类型文档进行解析,并将数据建立索引,支持用户检索目标数据。 (3)支持单元格的拆分与合并。笔者的平台支持将表格数据拆分成只含有属性词与对应属性值的一一对应表格,不仅可以输出单一数值,而且可以根据用户输入的查询关键词重组不同的表格,是一种优化,最大程度的输出用户想要获取的数据。