论文部分内容阅读
随着Web搜索日益被人们接受和使用,关键字查询成为了查询文档和网页的最简单、最流行的信息检索技术。由于应用需求的推动,关系数据库上的关键字查询(KSORD)成为近年的热点研究领域。普通用户只需要使用简单的关键字查询就可以访问关系数据库,而不用知道或理解数据库模式,也不用懂得书写SQL查询及学习和使用关系数据库的定制查询界面。本文所研究的面向分析处理的关键字查询(KDAP)就是KSORD的一个研究方向,它把OLAP分析与关键字查询相结合,通过一步步的导航发现用户感兴趣的事实和数据,最后以报表的形式展现给用户。虽然面向分析处理的数据库关键字查询已展开研究,也出现了一些原型系统,但是其查询效率还没有引起人们的关注。当查询关键字个数比较多或数据库模式比较复杂时,KDAP系统的查询效率就会变得很低。本文从基于模式图的KSORD出发,研究了KDAP系统的查询过程,主要分为两个阶段:候选了空间的生成和候选面的构造。候选子空间基于模式图进行即时查询,当关键字个数较多或数据库模式复杂时,候选了空间的即时生成就会耗费大量的时间,从来严重影响系统的查询效率。另一方面,候选面构造的过程中,系统要对每一维的属性和属性实例计算聚合值,再进行排序,如果维中属性过多或者事实表庞大,候选面的生成效率会大大降低。因此,本文针对KDAP系统,首先研究了其查询体系结构及查询模型,然后分析了查询过程中存在的效率问题,从而进行了性能优化技术的研究,并提出了两种优化KDAP查询效率的方法。本文的主要工作和创新点在于:1、提出一种基于数据库模式图的候选子空间预处理方法。该方法通过预处理数据库模式图,并把处理之后的候选子空间模式存储在数据库中,避免了系统在查询时临时生成候选子空间,大大减少了KDAP系统生成候选了空间所需的时间,从而提高了KDAP系统的查询效率。2、提出了一种候选面生成的优化处理方法。该方法首先对候选了空间进行处理生成划分集合,将得到的划分集合看作是一个文档集,集合中的每一个实例面看作是一个超级文档,然后利用空间向量模型计算查询与文档之间的相似性,选择那些最有希望的实例面进行聚合计算。该方法减少了需要进行聚合计算的实例面个数,达到了提高KDAP系统查询效率的目的。