论文部分内容阅读
随着信息时代的到来,社会对数据处理的需求越来越复杂,越来越多样化。传统的关系型数据及关系型数据库已经渐渐不能够满足现代数据,尤其是结构化半结构化数据的数据描述需求与数据管理需求。XML数据作为一种半结构化数据,以其灵活的结构特征,直观的表现形式,以及丰富的数据描述能力逐渐成为各个领域广泛采用的数据格式。而XML数据管理技术经过近十年的发展,已经在语言描述,查询处理,存储方法,事务管理等方面取得了长足的进步。
数据库评测作为数据库研究的重要组成部分,在传统数据库的发展中起到了举足轻重的作用,XML数据库评测也伴随着XML数据库发展的历程逐渐发展。相对于传统数据评测来说,XML数据库评测在扩展性,易用性等方面都还有很大发展空间,现有的XML数据库评测方法并不能完全满足系统设计与研究人员对数据库系统微观评测的要求。本文正是对XML数据库评测的相关关键技术进行研究,从对传统数据库评测方法的研究出发,探寻了查询和数据之间的深层联系,研究XML查询集特征,创造性的将XML代数相关分析应用到查询生成中,并进一步的提出了一种查询集的自动生成方法,使生成的查询集具有良好的代数性质并体现XML查询的各类重要特征。最后,本文以自动生成的查询集为核心提出了一种新的XML评测方法。该方法支持用户自定义数据集与查询集,从而克服了现有评测灵活性,易用性,扩展性差的缺点。为XML评测方法的研究开辟了新的道路。
在分析了近几年国内外相关成果的基础上,本文对XML查询特征,XML查询与数据的关系,XML查询自动生成,XML微观评测等问题进行了深入细致的研究,主要贡献与创新点如下:
●分析了针对文档数据的XPath查询语义与结构特征。本文从数据的角度出发研究了查询与数据的相互关系,分析了在XML数据结构上的查询集的代数特征,并给出了完备查询集生成算法。具体本文建立了查询语义结构特征与文档结构特征的相互关系,并对查询集在对应文档中的完备性进行分析,建立了完备查询集的概念。这些研究能够用于指导索引理论和查询规约方法的研究,同时作为查询生成的理论基础。
●提出了一种基于代数的XPath查询自动生成方法。该方法利用代数分析手段,对XPath查询进行特征抽象,利用XPath代数子集、等价类等概念对查询特征进行描述,并给出了相关生成算法。实验结果证明,该方法所提取的查询特征能够很好的描述查询差异,在灵活性,可扩展性方面强于现有手工标注的查询集选择方法。同时在特征描述,查询完备性上优于现有查询自动生成方法。
●设计了一种基于需求的XML微观评测方法。该方法以查询集自动生成方法为核心,建立了用户能够自由选择数据集,并根据需求配置查询集的评测方式。它改变了以往评测方法采用固定的,预定义的查询集和在有限范围内配置数据集的模式,通过构造测试用例分析证明,该方法能够有效地对各查询引擎进行性能区分,并对其各模块属性进行系统分析。