论文部分内容阅读
无论是在研究领域还是在商业化的系统中,R-Tree都是应用最为广泛的空间索引之一,它是地理信息系统中相当核心的一个研究方向。自1984年Guttman提出R-Tree以来,有大量针对其不足的改进和优化方案被提出。研究的热点包括了对树结构的改善以提高查询效率和提出代价模型以评价和预测R-Tree的行为。随着研究的深入,发现仅从R-Tree本身来优化变得非常困难。面对海量的数据集和日益复杂的GIS软件运行环境,要找到适用于所有情况的优化方案是几乎不可能的,因此研究的目标应该是既要研究效率更高并且应用范围广的算法,同时还要针对真实的数据集进行分析和预处理,并将其与R-Tree结构的优化联系起来。本文的研究基于一个真实的R-Tree空间索引系统和真实的数据集,结合代价模型,从三个方面提出了R-Tree的优化方案,即页面尺寸的设定、缓冲调度和缓冲区组织的改进以及通过数据采样和迭代生成R-Tree这三个方面,具有较强的理论和实践意义。主要工作包括:1.研究R-Tree的主要算法、已有的代价模型和优化方案;2.从三个方面给出了R-Tree的优化改进:1)认为页面尺寸应该由数据集的特性决定,并通过实验分析得出了优化页面尺寸的方法和结论;2)认为已有的缓冲区理论在缓冲调度和缓冲区组织上存在不足,并给出了相应的改进;3)对于数据集变化较小的应用,通过数据采样和迭代生成的方案能有效改进R-Tree的结构并提高查询效率;3.实现了一个基于R-Tree的空间索引系统,在理论上应用了部分的研究成果,同时在实现中力求做到高度优化。