论文部分内容阅读
随着高维数据库的快速发展,高维数据库容量越来越大,为加快查询效率,研究者已提出了多种对高维数据建立索引结构的方法,但是这些索引结构在如下两个方面存在着缺陷:一方面,这些索引结构大都是基于一个不合理的假设,即认为高维数据集中的数据都是均匀分布的,而且各个维之间相互独立,不存在任何关联性;另一方面,大部分的树形索引结构都有随着维数升高而查询性能下降的缺陷,已有研究表明,在维数大于10的情况下,会出现“维数灾难”现象。除了树形索引结构,向量近似文件(VA-file及其改进等)有效地克服了“维数灾难”现象,但其查询性能的加速被限制在很小的范围内,仍难以满足实际的需要,而且它也是基于数据集中数据均匀分布,各维之间相互独立的不合理的假设。自适应聚类距离边界面的高维索引方法基于高维空间中的数据非均匀分布,且每个维之间还存在着一定的关联性的假设,这种假设符合真实数据集中数据的分布,因此它相比基于非真实数据集的高维索引结构能更好的解决实际问题。自适应聚类距离边界面的高维索引结构采用生成Voronoi聚类的索引方法,这种索引方法放宽了聚类距离边界面的规则性,放松的规则性更符合数据的原始分布,从而使得边界面更加紧密。在基于此结构的查询中,可大大提高查询效率。2011年有研究者将这种索引结构与精确K近邻查询算法相结合,生成了适用于高维的基于自适应聚类距离边界的KNN查询算法。这种查询算法利用查询向量到聚类距离边界的下界值过滤掉不相关聚类的调入,很好的降低了I/O开销。同时,在文章中研究者已通过相关实验证实了它相比基于顺序扫描的索引如VA-File, iDistance, LDC索引结构在降低I/O次数上具有更好的优势。因此基于此结构的检索算法具有更好的实用价值。但是,在基于此结构的KNN查询过程中仍需要计算查询向量到聚类中所有对象的距离,这在维数很高,数据量很大的情况下会大大降低查询性能,因此基于此结构的KNN查询算法仍有待改进。针对目前自适应聚类距离边界的高维索引结构及相关查询算法的现状,本文在该领域进行了较深入的研究,主要工作和成果如下:首先对相关高维检索技术进行了综述,研究了自适应聚类距离边界的高维索引结构以及基于此结构的KNN查询算法,并分析了基于此结构的查询算法的不足;其次针对基于自适应聚类距离边界的高维索引的KNN查询算法的不足,提出了改进的IV-KNN算法。通过在原来存储结构上增加一定的开销和预处理,将三角不等式的思想应用到基于自适应聚类距离边界的高维索引结构的KNN查询算法中,在原来降低I/O复杂度的基础上,进一步降低了CPU代价,提高了查询性能。并通过在真实数据集上进行的实验,验证了这种改进的算法比原来的算法在查询性能上有了较大的提高;最后从近似检索的角度出发,综合目前的近似检索方法,提出采用LLE和PCA相结合的方法对数据集进行降维处理,然后再建立基于自适应聚类距离边界的高维索引结构来实现近似检索,提出了降维TV-KNN算法(RDIV-KNN),并基于真实数据集对算法的有效性和查询效率进行了实验,实验结果表明RDIV-KNN查询算法在查询精度和性能上均有提高。