论文部分内容阅读
随着不确定数据的大量产生,如何从不确定数据库中进行Top-k查询成为一个急需解决的问题。由于不确定数据概率维的存在,使得它和传统的确定性数据在处理方法上有很大的不同,准确并高效解决不确定数据的查询问题具有重要意义。本文首先详细介绍一下不确定数据的产生的原因,及其特点,比较一下它和确定性数据的不同之处。之后总结了现有针对不确定数据的查询处理模型和处理方法,并指出这些模型存在的问题,以及现有方法的优缺点。本文不仅对现有的处理不确定数据的Top-k方法进行系统的研究,而且还比较了Skyline查询和不确定数据Top-k查询之间的关系,并采用已有的Skyline的方法来解决不确定数据的Top-k查询。最后,提出使用元组之间的DRA关系来改进现有的方法,该思想是通过元组的分值和概率值之间的大小关系来确定元组之间的控制关系,从而使得一些被控制的元组可以直接排除,不参与Top-k查询的计算,使得现有的查询方法可以更加高效的得到准确的结果。本文提出的使用元组之间的DRA的关系来提前删掉一些不可能成为结果的元组,使得查询过程更加简单。另一方面,对于某些数据经常更新变化的数据库,这种方法表现出更加优秀的效果,可以直接判断发生变化的元组能不能对查询结果产生影响,这样就节约了重新查询所需要的时间和空间。实验结果表明本文所提出方法能够更好的满足用户对于搜索结果的快速和准确的要求,搜索效率提高了。