论文部分内容阅读
近年,电子出版已经成为出版行业一个快速发展的分支,并以其数字化、网络化等新特性逐渐取代了部分传统出版方式,成为一种新兴的传播方式。不少传统的出版物已经采用了电子出版作为其辅助的出版方式甚至作为主要的出版和传播方式。加之国内外网络化的浪潮和网络的普及率不断提高,涉及到网络的电子出版倍受青睐。不少出版商和第三方软件开发企业已经将目光瞄准了电子出版领域的许多重要技术研究和应用。目前电子出版业的电子出版制作流程通常为采用通过对纸质出版用的印前页面描述文件进行解析,获取其页面描述信息后再通过编辑、标引及数据存储等操作流程,最后以电子版的方式呈献给受众。最后的呈现方式可以通过单机的应用程序、FLASH等多种形式,也可通过网站的形式通过网络进行出版和展示。电子出版流程中一个很关键的步骤在于对印前的页面描述文件进行反解以获得页面信息,而目前最为广泛使用的页面描述文件为Adobe公司的PostScript文件。PostScript文件实际上是PostScript这样一种页面描述语言记录页面信息的文件,用来记录发排印刷用到的排版页面数据,包括页面中的文本、图形图像以及其坐标信息等各种信息,只要能够从PostScript文件中提取出需要打印的页面信息,即有可能根据这些信息重新构造出需要打印的页面,并以其他方式重新展示或者进行出版等。本文以标准的PostScript语言描述的PostScript文件和非标准的PostScript语言描述的PostScript文件为研究对象,在现有的PostScript文件相关研究基础上,提出了对于PostScript文件进行解析和信息提取的方法,其中包括了对标准或者非标准的PostScript文件进行文本提取和图形提取、信息重构、坐标转换等一系列处理算法,并设计和实现了一个良好的PostScript文件的解析系统。本文PostScript文件解析算法覆盖了对PostScript文件进行解析的各个方面,包括了文件的文本及图形图像提取和最终的坐标转换等。PostScript文件解析系统的设计使用了面向对象程序设计的方法将系统划分多个功能模块,并且利用了字典、内存映射等技术很好地实现了对PostScript文件解析的同时具有了优秀的解析PostScript速度和准确率,具有较高的性能。对于PostScript文件的相关技术及其他页面描述文件的解析技术和系统设计具有启发意义。