论文部分内容阅读
由于XML正日益成为互联网上事实上的数据存储、交换、表示的标准,因此XML的数据越来越多,传统的关系型数据库由于关系模型本身的缺陷,不能很好的表示XML这种半结构化数据,并且SQL、OQL等这样传统的查询语言也不能很好的表达XML的结构化信息,基于Native XML的全文索引方面的研究也比较少。
基于以上原因,本文以研究Native XML数据库中基于倒排表的全文索引技术为主,同时也研究了Native XML数据库的相关技术,并且提出了一种新的倒排索引结构,并采用基于压缩表的存储方式实现数据存储,采用了一种基于改进的散列表的查询优化方法-OPMPHF散列函数来实现数据索引查询。最后整个团队共同实现了一个NativeXML数据库原型系统一XSQS(XML Storage and Query System)。
本文主要工作如下:
基于倒排表的XML全文索引结构,在研究了各种全文索引结构的基础上,根据Native XML数据库的特点,结合XML半结构化的数据特点,提出了自己的基于倒排表的XML全文索引结构;
原型系统XSQS(XML Storage and QuerySystem),为了更好的研究Native XML数据库系统,同时也为了验证本文提出的基于倒排表的索引结构及相应的检索处理技术,本文在上述研究成果的基础上实现了一个Native XML数据库原型系统-XSQS,该系统可以方便的存储和处理XML文档;
基于倒排表的压缩存储方式,为了节省空间,减少I/O操作时间,提高系统性能,本文对基于Native XML的索引文件采用基于压缩表的方式来实现存储;
单独的XML数据装载器,为了给数据库提供一个灵活的装载接口,我们设计并实现了一个装载器,它可以根据数据库中的数据存储格式灵活的实现装载;
基于改进的散列函数来实现数据检索的查询优化问题,为了提高检索效率,优化查询功能,本文设计并实现了基于OPMPHF散列函数的方法来实现Native XML全文数据库的词库查找过程。
最后我们利用Shakespeare’s数据集对本文提出的一些技术方法进行了检验,试验表明本文所设计的系统在Native XML全文索引的压缩存储以及与查询索引上性能是比较好的。