PS文件文字信息转换到PDF文件的方法的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:whiterain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子文档作为现代人们传递信息的一种高效媒体,越来越受到人们的重视。目前世界上流行的电子出版文档格式包括:PostScript、PDF等。文字是一份文档中记录信息的主要形式,所以对文字内容的描述和表示就成为了电子文档格式和文档引擎都需要考虑的基本问题和重要问题。 本文首先对字体原理和设计分类进行研究,并详细介绍了常见的PostScript字体和TrueType字体,以及GBK、Big5等文字编码。接下来详细阐述了PDF、PostScript等主流电子文档格式及其关键技术和专利情况,从而提出了制定和实现中国自主格式标准的重要性。 本文提出了一种PDF文档引擎设计的基本方案。实现该文档引擎的过程中,通过进行比较详尽的面向对象分析与设计,应用设计模式等技术,较好地满足了软件的可用性和可扩展性。该方案实现了对PDF中基本对象和组件的表示与操作,符合PDF Version 1.66规范的要求,为在此文档引擎之上的PDF应用提供了基础平台。 基于该文档引擎,本文提出了一种将PostScript中文字信息转换为PDF描述的方案。该方案针对不同字体技术应用不同的转换方案,能够将PostScript、TrueType、CID等字体完备地转换为PDF描述。针对文档格式中的文字转换技术,本文还重点研究了字体嵌入技术,并提出了一种生成TrueType字体嵌入文件的技术和一种将Type3字体转换为TrueType的技术。上述两种方案基于对TrueType字体的深入理解,利用Bezier曲线降阶、GID重编码等技术,达到了生成较小字体嵌入文件的目的。 本文所述所有方案已经集成入北大方正集团Apabi项目和方正集团POD项目,并申请国家发明专利一项。
其他文献
本体对于语义Web的发展至关重要。随着语义Web的发展,基于本体的应用越来越多。本体匹配就是一个发现不同本体之间映射关系的过程,如今本体匹配已经发展成语义Web研究中的一个
计算机信息化管理在民航业已得到广泛的应用,从民航各信息系统的特点来看,存在环境异构、数据与业务无法有效共享、跨平台集成困难等急需解决问题,为实现准确反馈和优化调度的目
文本分类是处理和组织大量文本数据的关键技术。在文本分类中,特征空间的维数高达几万,导致样本统计特性的评估变得十分困难,甚至会降低分类模型的泛化能力,出现“过学习”的
随着Internet的持续飞速发展,各种新兴服务和应用不断涌现。为了提高传输效率,IP组播技术被提出并得到了一致肯定。与此同时,VPN技术也在Internet范围内得到了广泛应用,而且随着V
随着网络技术的飞速发展,人们对计算机网络的依赖与日俱增。但是开放的网络环境就像一把双刃剑,在带给人们无限方便的同时,也对数据的安全构成了巨大的威胁。入侵检测和恶意
IP协议己成为下一代无线通信网络的核心协议之一,但对无线网络来说,IP分组信头过大,严重地浪费了宝贵的无线带宽,因此,必须对IP分组信头进行压缩,提高无线带宽利用率。 对于移动
变电站实施综合自动化后,全部告警信息上送到后台监控中心,告警信息都是按照时间顺序显示,发生事故时各种信号动作很频繁,值班人员容易遗漏重要的信号。因此,迫切需要在监控系统运
对基于结构化的Peer-to-Peer 覆盖网络的流媒体服务而言,如何构造一个拓扑感知、结点加入和退出时维护开销较小的流媒体体系是一个关键问题。DHT算法的最大问题是DHT的维护机
近年来,多核学习逐渐成为机器学习领域的研究热点之一,其通过多个候选核函数的组合来替代单个核函数,巧妙地将核函数的选择问题转化为核组合系数的学习问题,同时增强了核方法
工作流作为一种信息技术,通过提供相应的方法和软件系统,它可以支持一个组织不断改进业务过程以适应需求的快速多变。其主要目标是对业务过程中各步骤发生的先后次序,以及同