论文部分内容阅读
自从PDF文档问世以来,以其诸多的优良特性已经在学术界和工业界被广泛的使用。大量的文档资料以PDF格式被存档,读者只需要借助任意的PDF阅读器就可以方便的浏览其中所包含的信息。随着科技和文化的飞速发展,学术界已经积累了海量以PDF格式存档的论文,这其中绝大多数的论文内容的排版结构都是可以适配于PC端,在PC端可以渲染出良好的效果。目前移动互联网时代已经来临,各式各样的移动设备已经普及,由于移动设备不受时间和空间的约束同时具备良好的交互性等优势,越来越多的人群倾向于通过移动设备浏览和获取信息。然而PDF格式文件一旦被生成,其包含信息的排版格式是固定不变的,对于在PC端渲染良好的PDF学术论文,并不一定适合在屏幕尺寸较小移动设备上,这使得PDF学术论文在移动设备端的阅读体验大打折扣。
本文以学术界PDF格式论文作为研究对象,介绍了当前PDF文档格式的转换技术,PDF包含信息的提取技术和渲染技术,同时对系统中涉及到的处理流程进行深入分析,设计了高效的处理模型用于优化系统的处理能力提高系统的处理效率。本文完成了对PDF学术论文多种格式的转化工作,并借助现有技术对PDF论文的内容进行分块处理,设计了基于HTML文档树的文本信息抽取算法和渲染样式信息的抽取算法,将提取出的本文信息按照一定的顺序结构进行重排版,同时对控制文本的渲染信息进行过滤处理,使得渲染信息能够良好的控制文本信息的渲染样式,最后将排版后的内容基于HTML格式作为输出结果。总的来说,本文的工作是提出一种高效的解决方案,使得PDF论文能够在移动设备端被渲染得更优雅。
最后对系统进行实际测试,验证了本系统可以自动化的对PDF论文的内容进行提取,而后对提取出的内容进行编辑排版,使得排版后的内容在移动终端能够达到较好的展示效果,本文的研究内容有利于使PDF文档在移动设备端呈现更加友好的渲染方式,同时对PDF文件文包含文本信息和非文信息的提取工作开阔了新的思路。
本文以学术界PDF格式论文作为研究对象,介绍了当前PDF文档格式的转换技术,PDF包含信息的提取技术和渲染技术,同时对系统中涉及到的处理流程进行深入分析,设计了高效的处理模型用于优化系统的处理能力提高系统的处理效率。本文完成了对PDF学术论文多种格式的转化工作,并借助现有技术对PDF论文的内容进行分块处理,设计了基于HTML文档树的文本信息抽取算法和渲染样式信息的抽取算法,将提取出的本文信息按照一定的顺序结构进行重排版,同时对控制文本的渲染信息进行过滤处理,使得渲染信息能够良好的控制文本信息的渲染样式,最后将排版后的内容基于HTML格式作为输出结果。总的来说,本文的工作是提出一种高效的解决方案,使得PDF论文能够在移动设备端被渲染得更优雅。
最后对系统进行实际测试,验证了本系统可以自动化的对PDF论文的内容进行提取,而后对提取出的内容进行编辑排版,使得排版后的内容在移动终端能够达到较好的展示效果,本文的研究内容有利于使PDF文档在移动设备端呈现更加友好的渲染方式,同时对PDF文件文包含文本信息和非文信息的提取工作开阔了新的思路。