一种针对重复标签的XML文档索引结构及查询算法

来源 :山西大学 | 被引量 : 0次 | 上传用户:xiejie_850119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)作为Internet上数据表示和数据交换事实上的标准,已经得到了快速普及和广泛应用。如何对XML文档进行有效地查询也就成为如今XML研究领域的一个重要的研究课题,而在查询中引入索引方案无疑是一种行之有效的方法。近年来,针对不同的XML应用,人们已经提出了不同的索引结构,如DataGuide,1-Index,F&B和XR-Tree等,这些索引结构能够满足不同特定环境下的需求。XML文档的查询通常被转化为两个结点列表之间的包含关系或文档位置关系的结构连接操作。根据XML文档结构的特点,这些列表中有些结点是能够事先判断出它们是并不参与连接操作的,因此可以先在XML文档的结构索引上进行过滤,从而减少需要处理的元素数量以提高查询算法的整体性能。已有的工作表明,可以通过在各种结构索引上执行过滤来提高查询效率。本文针对XML文档树中重复标签高频出现的现象,给出一种可以高效处理这种重复标签结构的索引存储结构RS-Index,在查询算法中利用索引信息,能够快速过滤与查询无关的元素,以达到提高查询效率的目的。本文的主要工作是:(1)提出了一种针对重复标签的XML文档的索引结构RS-Index,并给出了相应的索引结构形成算法。(2)在RS-Index的索引结构上提出了相应的过滤算法。并以该过滤算法为基础,给出了一种新的查询算法,快速找到满足查询条件的元素序列。(3)构建了一个实验系统,在系统中实现了本文提出的索引结构、过滤算法和查询算法。(4)把本文提出的RS-Index索引结构与其他相似的索引结构在通用的数据集上进行了较为全面的比较。实验数据表明,使用该索引结构及其查询算法,对于具有大量重复标签的XML文档,可以提高查询效率。
其他文献
近年来,随着射频识别(RFID)技术的快速发展与广泛应用,RFID系统中的数据安全等问题也日益凸显出来,引起了人们极大的关注与争论,使得RFID技术进一步的推广受到严重的阻碍。目
21世纪全球进入了信息经济时代,信息的重要性,促使人们逐渐把目光从物流、资金流,转移到了企业内部的另一个流:信息流。企业信息流的顺畅与否严重影响企业的经营决策。  针
粗糙集理论是上世纪八十年代初由波兰学者Z.Pawlak提出的一个数据分析的有力工具,近年来日益受到各领域的广泛关注,并已在机器学习、模式识别、决策分析、过程控制、数据库知识