基于倒排表的XML全文索引研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:liujm1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于XML正日益成为互联网上事实上的数据存储、交换、表示的标准,因此XML的数据越来越多,传统的关系型数据库由于关系模型本身的缺陷,不能很好的表示XML这种半结构化数据,并且SQL、OQL等这样传统的查询语言也不能很好的表达XML的结构化信息,基于Native XML的全文索引方面的研究也比较少。 基于以上原因,本文以研究Native XML数据库中基于倒排表的全文索引技术为主,同时也研究了Native XML数据库的相关技术,并且提出了一种新的倒排索引结构,并采用基于压缩表的存储方式实现数据存储,采用了一种基于改进的散列表的查询优化方法-OPMPHF散列函数来实现数据索引查询。最后整个团队共同实现了一个NativeXML数据库原型系统一XSQS(XML Storage and Query System)。 本文主要工作如下: 基于倒排表的XML全文索引结构,在研究了各种全文索引结构的基础上,根据Native XML数据库的特点,结合XML半结构化的数据特点,提出了自己的基于倒排表的XML全文索引结构; 原型系统XSQS(XML Storage and QuerySystem),为了更好的研究Native XML数据库系统,同时也为了验证本文提出的基于倒排表的索引结构及相应的检索处理技术,本文在上述研究成果的基础上实现了一个Native XML数据库原型系统-XSQS,该系统可以方便的存储和处理XML文档; 基于倒排表的压缩存储方式,为了节省空间,减少I/O操作时间,提高系统性能,本文对基于Native XML的索引文件采用基于压缩表的方式来实现存储; 单独的XML数据装载器,为了给数据库提供一个灵活的装载接口,我们设计并实现了一个装载器,它可以根据数据库中的数据存储格式灵活的实现装载; 基于改进的散列函数来实现数据检索的查询优化问题,为了提高检索效率,优化查询功能,本文设计并实现了基于OPMPHF散列函数的方法来实现Native XML全文数据库的词库查找过程。 最后我们利用Shakespeare’s数据集对本文提出的一些技术方法进行了检验,试验表明本文所设计的系统在Native XML全文索引的压缩存储以及与查询索引上性能是比较好的。
其他文献
期刊
期刊
学位
学位
学位
期刊
学位
期刊
期刊
随着信息化技术的发展,传统工作流管理系统中存在的问题暴露得愈来愈明显。移动Agent技术自从90年代初出现以来,以其优越的特性和强大的功能而获得了广泛的关注和发展。本文将移动Agent技术引入到工作流管理系统中,利用移动Agent的自治,自适应,智能,移动等特性,用以改善解决传统工作流管理系统中存在的几个问题:工作流系统中的资源冲突问题,执行中的模式僵化问题,提高用户的自主性。本文首先介绍了工作流
学位