论文部分内容阅读
在过去的十余年里,XML得到了迅速的发展和极其广泛的应用,XML数据凭借其灵活的半结构化特征成为当今各个领域广泛采用的新的数据形式。呈指数级增长的XML数据给数据库研究领域注入了新鲜的血液,半结构化数据管理已成为现代数据库技术的一个重要分支。XML数据管理应以XML数据模型为中心,从XML数据的本质特征出发,探求支持其独特树形结构的高效管理方案,即原生XML数据管理方案是解决问题的关键所在。本文正是对原生XML数据管理中相关的关键技术进行了研究,一方面是设计和实现了一种完全独立的原生XML数据库的物理存储方案,它完整地体现了XML数据逻辑模型,支持各种XML索引结构,并能高效的进行XML查询;另一方面,针对传统基于关系数据库管理XML数据所造成的语义丢失以及性能下降问题,本文设计和实现了一种无缝集成关系数据库系统的原生XML存储方案,该方案最大幅度地重用关系数据库的存储管理器,解决了XML数据逻辑模型与关系模型之间的差异,能够以最自然的方式存储和索引XML数据。在分析近几年来国内外相关研究成果的基础上,本文对原生XML编码、存储、索引、更新、文档相似性度量等问题进行了系统深入的研究。主要贡献与创新点如下:●提出了一种基于二进制分数的动态XML节点编码方案BSC。给出了BSC编码方案的基本定义及其扩展定义,设计了BSC的静态和动态编码算法,分析和对比了多种节点编码串行化方法的效率和局限性,最后实验验证了BSC编码方案的高效性。●参与设计了一种节点级原生XML存储方案XN-Store。该方案以节点记录为最小单位,直接在分页文件上构建持久化的XML数据逻辑模型,节点记录的文档序存储可以支持快速的XML文档发布和节点的随机访问,能够支持各种XML辅助索引和高效的查询处理。实验证明XN-Store是一种高性能的原生XML存储方案。●基于XN-Store存储方案,本文设计了一种高效的XML数据更新策略XN-Store+。在XN-Store的基础上,该方案添加前向链接记录以保持移动记录的虚拟地址不变,进而维护各种索引结构的正确性;添加重定位记录以保持实际节点记录的文档序存储,很好地解决了XML数据高效更新和索引维护困难之间的矛盾。●提出了一种基于关系的原生XML存储方案NXRel。基于模型映射的方式,NXRel解决了XML数据逻辑模型和关系模型之间的差异所引起的各种问题,在关系表的基础之上构建了XML数据逻辑模型,能够以自然的方式存储和索引XML文档,支持高效的XML数据更新。实验证明NXRel处理各类XML数据集都具有稳定的表现,各种索引结构能够对XML查询提供强有力的支持。●基于双向路径约束模型,本文提出了一种综合考虑各种因素的XML文档相似性的度量方法。提出了双向路径约束模型以精确刻画XML文档结构特征,设计了基于集合和基于N-Gram的路径约束相似性度量方法,综合各种权重代价,给出了基于双向路径约束模型的文档相似性度量方法。通过聚类实验证明,该方法能够提高聚类效果的准确率和召回率。