论文部分内容阅读
对于文档,尤其是数字出版物(如电子书)而言,除了内容信息以外,结构信息同样对读者的阅读理解、查询检索等起着重要的作用。对文档结构信息的自动提取即版面理解已经引起研究者的广泛关注,但目前研究大多停留在浅层版面信息(如位置关系、字体样式等)的层面上,取得的效果不够理想。而且由于文档版面布局的复杂性和多样性,版面理解算法的通用性成为该领域一个公开的难题。另外从研究对象来看,一方面当前的版面理解研究主要基于具体领域的文档,例如特定类型的卡片、信件、报纸等单页文档。而对多页的图书文档的研究相对较少且仅限于个别任务,缺乏整体系统的研究;另一方面由文档处理软件(如排版软件)直接生成的版式文档,正在取代从纸质文档转化而来的图像文档成为数字出版物的主要文档来源,但目前的版面理解研究绝大多数集中在图像格式的文档上,对版式文档的研究才刚刚起步。如何将传统的版面理解技术应用到版式文档是值得研究的,也是提高数字出版物制作效率的迫切需求。
本文以图书版式文档为研究对象,对其版面理解问题进行整体系统的研究,并提出了图书版面理解的系列方法,已经实现了高效抽取若干关键结构信息的算法和系统。具体包括页面级结构信息提取和文档级结构信息提取,页面级结构信息指文字排版方向、分栏、页眉页脚、版心、正文和标题字体信息、标题、正文段落、图表标题、脚注和表格,文档级结构信息指目录、引文信息和章节层次结构。本文具有创新性的研究成果主要体现在以下几个方面:
1、图书文档的通用模型建立
本文根据开放文档框架(Open Document Architecture,ODA)对通用文档模型的定义,结合图书出版领域的整体设计原则,提出了图书文档的通用模型。该模型描述了图书版面逻辑元素及其之间的关系,为基于图书文档的结构信息抽取提供了统一的框架。
2、页面级结构信息的提取
针对版心、正文标题和图表标题等信息提取,本文提出了一种基于部件同质性及多页匹配的版面理解算法,改变了传统方法中只依靠单页版面信息的思路。由于利用了图书文档中相同文档部件样式同质的排版惯例,本文方法不受限于具体的文档样式,较传统方法具有更高的通用性,而且有效地提高了识别率。
此外,在文字排版方向、分栏、段落顺序和表格的识别中,首次利用版式文档内容输出局部自然有序的特征,并结合版面位置和样式信息等特征,提高了以往方法的识别效果。
3、文档级结构信息的提取
本文针对目录条目和引文条目的样式同质性,利用聚类技术,提高了目录识别和参考文献抽取方法的性能;并提出了一种不依赖目录信息的章节划分方法。
在这些关键结构信息提取研究的基础上,本文实现了一个电子书版面理解实验系统,实验结果表明本文提出的版面理解方法较传统的基于图像文档的方法,具有更好的性能;部分算法已经用于某电子图书生产线,显著提高了文档制作的自动化水平。