论文部分内容阅读
GML作为一种地理信息编码规范,不断的被完善及广泛应用于数据交换、数据集成、数据发布、数据存储、数据管理、移动GIS及基于位置服务(LBS)等领域,因此大量的GML空间数据不断涌现;另一方面,随着地理信息领域求解问题的规模化、复杂化,对计算平台的存储和计算能力提出了更高的要求。传统的单机环境在管理、处理海量GML空间数据时遇到很大的瓶颈。近年来,在学术界兴起的云计算技术,为GML空间数据的高效管理和处理提供了一个新思路。如何在云计算环境下高效存储管理和应用海量的GML空间数据,已经成为当前的热点问题。而对空间数据进行合理组织,设计高效的空间索引,是空间查询及空间分析等一切应用的基础。因此,本文对云计算环境下海量GML空间数据存储索引机制进行研究有重要的意义。本文以现有GML存储管理理论为基础,研究在云计算环境下GML空间数据的存储和索引建立方面理论。借助开源云计算平台Hadoop进行实现和效率测试。主要研究内容包括以下几个方面。1)深入研究GML空间数据模型、数据特点并且与传统空间数据进行比较。深入研究云计算相关原理与技术,为在云计算环境下存储管理GML空间数据奠定理论基础。2)借用Hadoop开源云计算平台,深入研究其HDFS(分布式文件系统)、MapReduce并行编程框架及架构在分布式文件系统上的列数据库HBase,针对GML空间数据半结构化的特点,提出了一种GML空间数据在HBase中的存储的数据模型。为了验证HBase数据库分布式存储的性能,本文在不同节点数的集群环境下对数据写入HBase速度进行测试,实验证明,随着节点数的增多,数据写入速度加快。并且与传统数据库做了对比实验,结果证明,在大数据量的情况下,HBase并行存储GML空间数据,比传统空间数据库有更大的性能优势。3)研究探索云计算环境下的GML空间数据的并行空间索引:本文结合现有的空间数据划分策略及并行空间索引算法,提出一种适合GML空间数据的划分策略并在此基础上设计了一种多层并行空间索引结构。最后,进行了简单的空间范围查询实验,在不同查询边界和不同节点数的方案下测试索引的查询效率。结果证明,本文提出的并行索引体系在空间查询方面具有较好的性能。