纯XML数据库中基于索引的并行查询处理技术的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:YING1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML以其扩展性、结构性、平台独立性和自描述性等特性成为数据表示和交换的事实标准,越来越多的应用使用XML来存储、交换和发布信息。但是目前关系数据库并不能很好的支持XML数据。纯XML数据库应运而生,它专门用来存储和管理XML数据。越来越多的XML数据库致力于设计和开发高效的查询XML数据的系统。并行处理为大型XML文档的高效处理提供了有效的解决途径。如何在并行环境中进行查询处理优化逐渐成为研究热点。首先,本文介绍了并行纯XML数据库系统的整体架构,分析了文档分片后的特点,设计了按照单枝路径对原查询进行分割的基本策略,并设计了一套代数系统。该系统使用一次一集合的方法执行并行查询。该查询代数系统中包括九种操作符,分别为定位操作符、选择操作符、与操作符、或操作符、分枝连接操作符、半连接操作符、聚类操作符、配对操作符以及构造操作符,并提出了一些优化方式。然后,本文研究了现有的XML索引技术,针对单枝查询中可能出现的三种情况,分别设计对应的索引类型,包括节点索引、路径索引以及文本索引,同时提出了基于代价估计的的查询优化算法和基于索引的结构连接算法,用于加速路径查询的处理。最后,本文对XML关键字查询进行了分析,研究了在并行XML数据库中基于SLCA语义的关键字查询,提出了SONB算法和MSOP算法。SONB算法用于在单机上执行SLCA查询,MSOP用于在并行环境中执行SLCA查询。在处理大量数据时,能够快速查询出满足条件的节点。本文对以上技术进行了全面的实验评估与分析。实验结果表明,并行查询算法在并行环境下执行效果良好,索引对于加速单枝查询具有关键作用,文本提出的SONB算法和MSOP算法对于关键字查询具有较高的效率。
其他文献
随着智能交通的发展,车牌识别的应用领域越来越广泛,自动化的车牌分拣系统也加入了车牌识别技术。目前的车牌识别一般都是从路口监控系统中获取车辆图像,转换成灰度图像后进
多目标进化算法(MOEA)以其独特的性能被广泛应用于学术研究和工程实践中,该算法的特点是无需定义目标权重而算法运行一次可以找出一组符合约束条件的非劣解,再由决策者根据其
TD-SCDMA是我国自主研发具有自主知识产权的3G国际通信标准之一,它集CDMA、TDMA、FDMA和SDMA技术于一身,具有系统容量大、抗干扰能力强、频谱利用率高、自适应功率调整等诸多
Bezier曲面是CAD/CAM系统中最基本的造型工具之一。它采用Bernstein基函数、控制顶点以及与控制顶点关联的权值来表示曲面,具有良好的数学性质,能够满足一定的光滑和光顺要求
创新设计是企业生存以及发展的动力因素,也为企业注入了新鲜的血液使企业在如今的市场竞争中立于不败之地,但由于设计者的思想受到以往的惯性和行业及学科的限制,很难找到全新式
随着网络技术的迅猛发展,电子商务作为一种全新的企业经营手段迅速发展并逐渐成熟。在电子商务环境下,交易双方往往会为了争夺有限的资源,而不可避免的产生争议与冲突。在电
随着科学技术的不断进步,随着计算机技术和人工智能技术的不断发展,人工智能技术的应用领域得到不断的拓展,使得一些领域的非常枯燥的人工劳动,逐渐被具有相同功能的设备所代
随着经济的迅速发展,汽车使用量迅速增加,虽然道路也随之不断扩展,道路交通负荷还是比较严重,交通事故发生频繁。由于道路交通事故中,行人在遭遇危险时避开车辆的能力较差,因
随着信息化时代数据信息的爆炸式增长,海量冷数据的归档存储成为数据中心依赖的重要基础技术之一。随着蓝光光盘技术的飞速发展,能提供低成本、低能耗、高容量、高可靠性服务
随着企业信息化建设的深入,企业逐步开展业务系统建设,由于系统的建设时期、开发技术、业务特征等诸多因素影响,这些系统之间并不能有效地实现信息共享和交互,将不可避免地导