论文部分内容阅读
随着XML相关标准的制定,Internet上出现了大量的XML文档,如何有效地管理和查询这些文档成为一个亟待解决的问题,这一问题的出现极大地促进了XML数据库技术的研究。原生XML数据库(NXD)是专为存储和管理XML文档而提出的,在NXD中的XML文档查询主要包括值查询和结构查询,其中的结构查询是XML查询的一个重要内容。判断结点之间的结构关系的主要思想是将一个复杂的查询模式分解成为若干个二元基本结构关系的集合,首先计算二元基本结构关系,然后将基本的匹配结果组合起来。在这种处理策略下,基本结构关系(包括父子关系和祖先-后代关系)的计算成为查询处理的关键操作,这种操作被称为结构连接(或包含连接)。各种索引的建立可以提高结构连接算法的效率,而XML结点编码可以方便地建立各种索引,所以XML文档结点编码方案的研究引人注目。本文在对原生XML数据库中动态结点编码方案及其应用进行透彻剖析的基础上,重点对三种动态结点编码方案,即ORDPATH编码、DeweyIDs编码及DLN编码进行了研究,并用C#开发了三种编码方案的软件。然后,用十个标准的XML文档测试集对三种编码方案进行测试,根据测试结果对三种动态编码的确定性、动态性和压缩性进行了分析与比较:在此基础上,从理论上进一步对XML动态编码的性能进行了分析比较,着重分析了动态编码的压缩性。对动态编码压缩性理论分析所采用的标准是:编码K个层标识占用的存储空间S,分别对用固定长度、长度域、前缀编码及控制标记等四种方式编码K个层标识占用的存储空间S进行统计,最终归纳出关于S与K的通式。通过一系列研究,进一步验证了动态结点编码在编码时间和空间效率的高效性。最后,对动态编码方案在查询计划和查询处理模型中的应用进行了探讨。