XML数据管理关键技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jia_oracle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着XML(eXtendedMarkupLanguage,扩展标记语言)技术的飞速发展,越来越多的数据使用XML进行表示,XML已经逐渐成为Web上数据表示和交换的标准。XML数据是一种特殊的半结构化数据,且其查询也不同于传统关系数据库的SQL语句,这为XML数据管理带来新的研究问题。本文以XML数据管理技术为研究对象,研究XML数据管理中的关键技术,在XML数据的数据模型、XML数据的查询语言、XML数据的存储结构、XML数据查询处理及优化技术方面取得了一系列研究成果。在XML数据的数据模型方面,提出了一种基于映射的XML数据库的数据模型。该模型能够充分表达XML数据库的复杂数据结构和语义,并支持以路径表达式为核心的查询代数操作。优于其他数据模型,该模型给出了XML数据模型的精确定义,同时定义了模式维护和数据维护操作。在XML数据的查询语言方面,提出了一种XML数据库的查询语言X-SQL。X-SQL具有类似于SQL(StructureQueryLanguage,结构化查询语言)语言的Select-From-Path-Where结构,使用方便,具有路径表达式查询能力和同时从多个数据源选取数据的能力,支持数据更新操作和查询结果的语义捕述。 在XML数据存储结构方面,设计并实现了基于模式划分的ASRX存储结构、以及适应于TwigJoin方法的ERCX存储结构。理论分析和实验结果表明,这些存储结构能够有效地支持各种XML数据维护操作。在XML数据的查询处理及优化方面,提出了三种XML数据查询处理方法:基于ASRX存储结构的路径表达式查询处理方法、基于过滤的XML数据查询处理算法和基于ERCX存储结构的查询处理算法。(1).基于ASRX存储结构的查询处理方法利用自动机匹配求解查询计划,并根据数据的划分信息扫描少量的数据块,从而降低了算法的I/O代价。本文将异步迭代查询处理技术应用于基于ASRX的查询处理,在查询计划的执行过程中不同层次的结点以流水线方式运行,并行完成查询的处理,提高了查询处理的效率。(2).本文还提出了三种基于过滤的查询处理方法BFX-Filter、CX-Filter和SX-Filter。这三种基于过滤的算法可以大大降低元素扫描数日,使得参加查询处理的元素结点数日大大降低。但由于采用了适合顺序扫描的索引结构,使得这三种方法运行时间开销比较大。为此,我们研究了基于ERCX存储结构的查询处理方法。(3).利用结点的ERC编码,数据在存储时被进行划分。查询处理时,只扫描对查询处理结果可能有贡献的结点。实验结果表明,基于ERCX存储结构的HTwigJoin查询处理算法无论在扫描的结点数日、磁盘I/O数日还是运行时间上都优于目前的其它XML查询处理方法。本文还给出HTwigJoin算法的优化策略:基于ERC编码的查询最小化方法。理论分析表明,该方法可以有效提高HTwigJoin算法的效率。 基于以上研究的结果,我们实现了一个XML数据库原型系统,用于验证所提出的理论和方法的正确性,同时为进一步深入研究打下一个基础。该系统已经用于分布式信息集成与共享系统。
其他文献
本文以提高联机分析处理系统的可靠性和查询速度为目的,在对数据仓库与联机分析处理及分布式计算相关技术进行深入研究和分析的基础上,结合房地产分析系统的实际,设计并初步实现
组织设计是织物的一项主要工艺参数设计,它是开发纺织新产品的一个重要途径。电子多臂机的普及,多臂机综片数的成倍增加,为多臂织物组织设计提供了更大的设计空间,同时也需要对多
该文在对软件工程理论、数据库原理以及网络安全性理论广泛研究的基础上,深入详细地讨论了兼备C/S和B/S模式MIS系统的体系结构、功能特性和开发过程,特别是对MIS系统软件功能
入侵检测系统同人类免疫系统所遇到的问题有惊人的相似性,二者都要在不断变化的环境中维持系统的稳定性。传统的入侵检测方法都是从定义入侵模式开始,然后把采样的模式和入侵模
本文介绍了精确打击效能系统的模型和无线传感器网络的发展、体系结构等,综述了无线传感器网络的现有的路由协议、及其性能;从能量损耗模型出发分析两种传统协议的优缺点,在此基
在IBM 和Microsoft 分别倡导的内涵一致的“普适计算”和“无缝计算”所描绘的人类未来美好的数字化生活中,网络扮演着重要的作用,而纵观网络的发展趋势,也正好迎合了这种美
Ad Hoc技术起源于20世纪70年代的美国军事领域,它是在美国国防部资助研究的“战场环境中的无线分组数据网”项目中产生的一种新型的网络构架技术。 无线Ad Hoc网络具有动
随着计算机技术的普及和进步,计算机辅助设计与制造技术(CAD/CAM)也得到了迅猛的发展,自由曲面造型技术在现代工业产品的设计和制造中有着广泛的应用。 本文针对散乱数据点
在零售业高速发展的今天,连锁经营的出现及商品销售类型的多样化使得原有的销售系统难以满足零售业信息化建设的需求,为此系统从当前零售业的发展特点和商品销售类型出发,在
随着计算机技术的发展,计算机已经从一个简单的、独立的系统发展到复杂的、互联的开放系统。开放性给信息的共享和交互带来了极大的便利,但同时也对信息安全提出了严峻的挑战。