论文部分内容阅读
XML正迅速取代HTML成为Web上数据表示、集成和交换的标准。与HTML相比,XML简单、自我描述,实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近来,XML在各种领域得到了广泛的使用,Web上涌现了海量的XML数据。为了有效地加工、分析和处理XML数据,研究者们已经提出了各种XML的查询语言和存储管理技术。在存储管理XML的各种可能的方式中,基于关系的XML数据处理是一种可行而有前景的方式,受到了广泛的关注。然而,由于数据模型的差异,利用关系数据库查询处理XML数据给传统数据库技术带来了许多新的挑战。 本文研究基于关系数据库的XML数据的存储、更新和检索技术,对XML数据的存储模式优化调整、XML数据的规范化存储、XML数据保持健约束的更新、XML数据检索技术、基于代价的路径索引构建等方面进行了深入的研究和探讨,提出了有效的算法和新的技术。论文提出的部分方法已在原型系统中实现,并通过实验证明了本文所提出方法的有效性。研究成果将可直接用于XML数据库的项目开发和产品研制中,具有重要的理论和现实意义。具体来说: 1) 提出了XML数据在关系数据库中存储模式的自适应调整机制。根据历史查询信息,系统在合理的时间内对其存储模式进行自动调整以产生高效的存储模式,从而提高系统的总体查询处理效率。同时,还提出了四种存储模式调整策略,其中两种策略可以实现自适应存储模式调整。实验表明该算法能有效提高XML数据管理系统的查询处理效率。该技术可集成到数据库系统的性能调节工具中。 2) 基于XML键约束的概念,提出了一种将XML文档保持XML键约束地映射到关系数据库中的方法。实现了XML文档在关系数据库中的规范化存储,极大地减少了XML数据在关系数据库中的冗余存储,大大减小了操作异常。对将来XML数据的处理有一定的参考价值。并为XML文档保持健约束的更新奠定了基础。 3) 基于XML文档在关系数据库中的规范化存储,本文还研究了XML文档保持健约束的更新。通过把XML键约束映射为关系数据库中的函数依赖,在更新XML文档时,不但保持了XML文档本身的键约束,还使关系数据库和XML文档保持了一致。并且提出了新的标注技术,实现了对XML文档更新位置的快速定位,从而高效地实现了XML文档保持键约束的更新。该更新技术使得XML成为真正表示与共享的统一格式。 4) 提出了两种新的倒排索引技术,该倒排索引技术可应用于XML文档的 摘 要检索。实验结果表明本文提出的两种倒排索引的空间开销得到了显著改善,其中基于模式的倒排索引获得了最好的存储空间与查询效率的权衡。其结论对未来XML数据搜索引擎的设计具有指导意义和参考价值。 5)本文还研究了一种有效支持XML路径表达式查询处理的路径索引一结构映射。给出了计算路径索引空间开销和所带来查询收益的代价模型。对给定的查询负载,我们采用贪心算法选择构建部分路径索引。也即,在一定的存储空间约束下,使选择构建的索弓旧旨带来最大的查询收益。为将来XML查询优化和索引设计奠定了基础。