论文部分内容阅读
近年来,随着信息化步伐的加快,地理空间信息获取技术进步日新月异。同时,地理空间数据规模与日俱增,已成为海量数据的重要来源之一。空间连接查询是一种常用且非常耗时的复杂空间查询操作,特别是在处理大规模空间数据集时,由于传统单机系统和MPI集群系统都难以满足其对时空开销的需求,因此,如何在云计算环境中设计高效的分布式空间连接查询算法已成为当前学术界和产业界研究的热点问题。本文首次尝试提出了一种云计算环境下的分布式QR-树索引结构,并在该索引基础上进行基于MapReduce的空间连接查询。本文主要工作如下:(1)提出了一种云计算环境下能够支持大规模数据集的分布式QR-树索引结构,并详细介绍了其构建的过程。分布式QR-树索引的构建过程可分为以下两个步骤:首先,采用基于四叉树的空间数据划分对空间数据集进行划分并分布式存储在HDFS数据块中;然后,在分割后的每个子区域数据块中并行构建R树索引。(2)在构建分布式QR-树索引基础上,将分布式QR-树索引结构与分布式并行计算框架MapReduce相结合,设计和实现了基于MapReduce的空间连接查询算法QRSJ-MR。另外,针对算法中存在的索引并发访问问题,采用了实时缓存机制对索引并发访问进行优化。(3)搭建Hadoop集群环境,测试基于MapReduce的分布式空间连接算法QRSJ-MR的效率。本文在空间交叠连接查询和空间包含连接查询上,分别与非索引的MapReduce空间连接算法和基于R-树索引的MapReduce空间连接算法做了性能对比实验。实验结果表明:与非索引的MapReduce空间连接算法和基于R-树索引的MapReduce空间连接查询算法相比,无论在空间交叠连接查询还是在空间包含连接查询上,QRSJ-MR算法都具有更高的执行效率。