论文部分内容阅读
随着移动互联网、云计算、大数据等技术的高速发展,交通、规划、社交网络等领域产生了海量的轨迹数据。轨迹数据能够反映客观世界中移动对象的位置变化和运动行为。移动对象轨迹的k近邻(k-Nearest Neighbor Trajectories,k-NNT)查询主要用于寻找与给定轨迹最近邻的k条轨迹,被广泛地应用于路径规划、路线推荐等领域。然而,随着轨迹数据规模的急剧增长,由于单机计算资源的限制,传统集中式环境下k-NNT的查询效率和可扩展性无法满足实际要求,有必要研究一种适用于分布式环境的海量轨迹数据k近邻查询方法。传统树形结构索引由于分层特征不适合并行化,而基于Voronoi图的索引在面对大规模的空间数据时,构图困难且查询时局部索引重建效率较低。因而针对大规模的轨迹数据,本文首先设计了一种基于MapReduce并行计算框架的分布式网格索引结构,该索引在Spark环境中将轨迹切分和映射到网格中,并引入了轨迹还原表以保留查询时候选子轨迹段间的连续性。然后,对于大规模轨迹数据的k近邻查询问题,本文提出了基于大数据平台Spark的轨迹k近邻查询处理框架。最后,本文结合分布式网格索引并利用MapReduce大数据处理模型提出了轨迹k近邻查询方法,包括了基于分布式网格索引的候选集生成算法和基于MapReduce的轨迹k近邻查询算法。本文在一个包含8个节点的Spark集群上进行实验分析。实验结果表明,基于不同区域的真实数据集,本文提出的网格索引并行生成方法具有较好的构建效率,而基于此索引的轨迹k近邻查询方法在分布式环境下实现了良好的查询效率和可扩展性,能够应对海量轨迹数据的k近邻查询需求。