论文部分内容阅读
通过对文档在信息领域的重要性和文档本质的归纳,本文阐述了广义上文档的定义及其意义,比较了几种常用的文档定义,解析了上下文环境及其定义,讨论了上下文环境对文档的作用和意义。将文档分割成逻辑维度、粒度、时间维度、空间维度等四个维度结构;重点阐述了文档的逻辑结构;辨析了逻辑结构中的主要结构和次要结构的关系和区别;分析了文章逻辑结构与内容粒度的关系;简述了文档的时间维度和空间维度。由此为建立通用文档模型和文档处理及文档的呈现提供了坚实的理论框架。在文档结构分析的基础上,本文探讨了通用文档模型的建立,着重构造通用文档模型的编码格式。该文档格式是基于XML的开放格式,主要分为三个部分,即文档的元数据、文档的内容数据、文档的样式数据。通过实例说明格式文本数据以通用文档编码格式存储的方式,以及存储数据压缩处理形成通用文档的方法。作为应用实例,本文给出通用文档格式与ODF文档、PDF文档、HTML文档和TXT文档之间的相互转换,并讨论了所采用的技术以及实现方法;同时结合实际转换效果,指出转换过程中需要注意的问题,以及通用文档模型需要优化改进的地方。