版式电子书的关键结构信息提取

来源 :北京大学 | 被引量 : 0次 | 上传用户:ez062009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于文档,尤其是数字出版物(如电子书)而言,除了内容信息以外,结构信息同样对读者的阅读理解、查询检索等起着重要的作用。对文档结构信息的自动提取即版面理解已经引起研究者的广泛关注,但目前研究大多停留在浅层版面信息(如位置关系、字体样式等)的层面上,取得的效果不够理想。而且由于文档版面布局的复杂性和多样性,版面理解算法的通用性成为该领域一个公开的难题。另外从研究对象来看,一方面当前的版面理解研究主要基于具体领域的文档,例如特定类型的卡片、信件、报纸等单页文档。而对多页的图书文档的研究相对较少且仅限于个别任务,缺乏整体系统的研究;另一方面由文档处理软件(如排版软件)直接生成的版式文档,正在取代从纸质文档转化而来的图像文档成为数字出版物的主要文档来源,但目前的版面理解研究绝大多数集中在图像格式的文档上,对版式文档的研究才刚刚起步。如何将传统的版面理解技术应用到版式文档是值得研究的,也是提高数字出版物制作效率的迫切需求。   本文以图书版式文档为研究对象,对其版面理解问题进行整体系统的研究,并提出了图书版面理解的系列方法,已经实现了高效抽取若干关键结构信息的算法和系统。具体包括页面级结构信息提取和文档级结构信息提取,页面级结构信息指文字排版方向、分栏、页眉页脚、版心、正文和标题字体信息、标题、正文段落、图表标题、脚注和表格,文档级结构信息指目录、引文信息和章节层次结构。本文具有创新性的研究成果主要体现在以下几个方面:   1、图书文档的通用模型建立   本文根据开放文档框架(Open Document Architecture,ODA)对通用文档模型的定义,结合图书出版领域的整体设计原则,提出了图书文档的通用模型。该模型描述了图书版面逻辑元素及其之间的关系,为基于图书文档的结构信息抽取提供了统一的框架。   2、页面级结构信息的提取   针对版心、正文标题和图表标题等信息提取,本文提出了一种基于部件同质性及多页匹配的版面理解算法,改变了传统方法中只依靠单页版面信息的思路。由于利用了图书文档中相同文档部件样式同质的排版惯例,本文方法不受限于具体的文档样式,较传统方法具有更高的通用性,而且有效地提高了识别率。   此外,在文字排版方向、分栏、段落顺序和表格的识别中,首次利用版式文档内容输出局部自然有序的特征,并结合版面位置和样式信息等特征,提高了以往方法的识别效果。   3、文档级结构信息的提取   本文针对目录条目和引文条目的样式同质性,利用聚类技术,提高了目录识别和参考文献抽取方法的性能;并提出了一种不依赖目录信息的章节划分方法。   在这些关键结构信息提取研究的基础上,本文实现了一个电子书版面理解实验系统,实验结果表明本文提出的版面理解方法较传统的基于图像文档的方法,具有更好的性能;部分算法已经用于某电子图书生产线,显著提高了文档制作的自动化水平。
其他文献
当前,国内水环境污染十分严重,尤其是江河流域普遍遭到污染。水利部对全国700余条共约10万km长的河流开展的水资源质量评价结果表明:水质污染严重而不能用于灌溉(即劣于Ⅴ类)
学位
今天Web应用程序的界面不再是通过Web服务器中的模板生成,而是通过浏览器中的JavaScript生成。用Ajax技术构建Web应用程序,使Web应用程序的架构产生了一次重大变革。但通过Java
视频图像中的运动目标跟踪作为计算机视觉领域的核心研究课题之一,经过近50多年的发展得到了广泛而深入的研究。它融合了图像处理、模式识别、人工智能、自动控制等相关领域的
学位
动态心电图(DCG,Dynamic Electrocardiography)是临床上分析诊断心血管疾病的重要手段。如何从心电信号中有效地提取各种特征并进行分类识别处理,辅助医务人员进行各种心血管疾
随着计算机软硬件技术的飞速进步与发展,分布式虚拟现实系统受到各行各业越来越多的关注,在军事、医学、建筑、娱乐、教育等领域都显示出巨大的经济和社会效益。本文探讨了分布
龙芯系列处理器是中国科学院计算技术研究所自主研发的,兼容MIPS指令集的高性能通用处理器。目前已经广泛应用于各个领域,包括高性能计算、桌面和网络安全等。为了充分发挥龙芯
自然计算(Natural Computation)是表示由自然启发的计算的一般性术语,其研究内容一般包括人工神经网络,遗传算法,免疫算法,蚁群算法和粒子群算法等。由于多数的自然计算模型
近几年随着互联网以及电子商务的飞速发展,互联网中的信息呈现出爆炸性的增长,用户无法从过量无用信息中挖掘出自己需要的物品或者信息,在这种情况下,个性化推荐系统应运而生
矩阵特征值问题是科学计算的一个重要组成部分,其研究可以追溯到一个半世纪之前.许多应用都会归结为矩阵特征值问题,例如在材料科学和化学中离散偏微分方程后就需要求解矩阵特
学位