基于二次索引技术的XML查询研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:handsomels
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML作为新一代的数据交换标准,在网络上的应用越来越多,由此也产生了大量的XML数据。如何对XML数据进行有效的查询处理成为现在研究的热点。而XML作为半结构化数据具有自定义、可扩展等特性,这些特性对XML数据查询工作造成了一定的困难。索引作为加速查询处理的一种重要手段,在许多领域中都起着关键性的作用。因此,利用索引来提高数据的查询效率是一种可行的办法,本文在对国内外研究现状进行综合分析的基础上,进一步对XML索引技术进行了深入的研究。论文对近年来提出的索引方法进行了学习研究,分析了现有索引的特点和优缺点,在此基础上提出了一种根据路径采用不同的索引结构进行查询的方法。该方法根据查询路径有简单路径和分支路径之分,分别采用压缩树索引和哈希编码索引进行处理。压缩树索引的方法对查询过程中的简单路径表达式进行处理。该方法不仅在组级提供了简洁的路径概要,而且在元素级提供了父子关系的详细连接信息。当元素级映射可以快速的访问一个元素的父节点时,组级可以有效地减少搜索空间。该索引使用基于组的元素引用替换了对元素进行编码,减小了索引所需的空间。同时,引入改进的正排索引和倒排索引加快对元素的判断,更高效的获得索引组中的信息。基于组级的元素作为参考,不仅可以使压缩树根据组聚类成倒排表从而为倒排表和组范围(组一级)的结构索引提供更好的连接,还可以根据组级的元素信息很容易的对不同类型的XML数据进行分类,将相近的元素放在一起以便于索引。基于压缩树的查询处理方法能加速查询分析,并在处理的早期极大地减少搜索空间。哈希编码索引的主要思想是XML文档中的每一个节点对应索引树中的一个节点,索引树中的非叶子节点存放着该节点在XML文档中的位置,索引树的边存储的是XML文档中父节点到其子节点的路径哈希码。索引树中的叶子节点存放着XML节点的数据。哈希编码路径索引树具有比较好的扩展性,该索引通过存储节点的哈希编码来代替以前索引中存储节点的字符串的方法,从而减少了索引文件所需的存储空间。通过对文档树中节点进行编码,将字符串装换为整数,提高查询速度。该索引引进传统数据库中层次索引的概念,实现了对频繁使用路径的直接存取。本文提出了一种层次索引的方法,根据路径表达式的具体情况以及表达式使用的频率不同而采用不同的索引方式,通过多级索引提高检索的效率。
其他文献
访问控制策略有效地保障了信息系统的安全性,它是指实施允许被授权的主体对某些客体的访问,同时拒绝向非授权的主体提供服务的策略。随着信息化步伐的加快和计算机技术的发展
随着计算机科学的迅速发展,软件规模日益庞大。现在人们在考虑软件执行效率的同时,也越来越关注其安全性(Safety)。高可信软件的研究致力于使用前沿的技术和工具来提高计算机
深度学习作为机器学习领域的一个重要研究方向,在近年来发展迅速。深度学习的主要思想是通过构建多层的深度网络结构,使用高效的算法逐级提取数据的高级特征,来完成多种无监
SOA(Service Oricented Architecture面向服务的架构)基于这样的理念:将业务功能作为一系列的服务而提供,并将这一系列服务组装起来的解决方案来满足特定业务需求。SCA(Service
计算机支持的协同设计(Computer Supported Collaborative Design,CSCD)已经成为网络环境下数字化设计与制造的关键技术之一,能够较大幅度地缩短产品设计周期,降低产品开发成
随着Web服务技术的发展,越来越多的服务提供方以Web服务形式提供服务,当单个简单Web服务无法满足需求时,需要组合多个Web服务来完成,在组合过程中如何高效准确组合现有服务成
移动增值业务结合了互联网与移动通信的技术优势,在满足人们随时随地获取信息需求的同时,还可以提供除语音业务外的多媒体业务、交互式数据业务、电子商务等其它丰富的业务应
程序验证用逻辑证明的方法证明程序满足其规范,是实现安全性的重要方法。出具证明编译器(Certifying Compiler)是编译器与验证器的结合。本文描述的出具证明编译器项目CComp让
分类问题是模式识别的核心研究内容,其目的是通过对己知标签数据集的学习设计一个分类器,然后用该分类器来预测新样本的标签。按照样本所属标签个数,分类问题可以分为单标签
网格技术的提出为互联网络中资源共享、大规模计算应用的解决提供了很好的支撑平台,但是网格环境本身固有的动态性、异构性等特点,又给网格作业的调度带来了不小的难度,因而