论文部分内容阅读
随着空间数据规模的不断增长以及空间信息应用的日益增强,对海量空间数据的存储与管理提出了新的挑战。而云计算无限扩展的存储能力以及强大的计算能力则可以满足海量数据存储、大数据并行处理、持久在线服务等方面的需求。鉴于云计算技术的诸多优点,论文针对如何利用云计算技术实现对海量矢量数据的存储与管理展开研究。重点对云计算环境下矢量数据的索引建立、数据划分、编码规则以及数据的导入、查询、更新方式进行了设计与实验。论文围绕以下几个方面开展工作: (1)矢量数据云存储研究背景介绍及相关理论技术分析。论文从海量空间数据存储、空间大数据处理和持久在线空间信息服务三个方面分析了开展云环境下矢量数据存储与管理研究的应用需求,明确了本文的研究意义;分析了当前国内外云计算及空间信息云存储的研究现状;并针对矢量数据云存储所涉及到的理论与技术,从矢量数据存储、云计算技术和开源云平台Hadoop三个方面进行了详细分析和研究。 (2)构建了基于Hadoop的矢量数据分布式存储策略。针对矢量数据的多尺度特点,采用四叉树层次剖分技术设计了多级格网索引;基于Hilbert空间填充曲线的聚类特性,设计了矢量数据的划分策略;结合空间信息多级格网编码和Hilbert编码,设计了符合HBase数据库RowKey存储规则的矢量数据标识编码;根据HBase数据库的存储规则,确定了矢量数据的组织方式以及矢量数据、索引数据、元数据、属性数据字典的数据库表结构。 (3)设计了基于Hadoop的矢量数据并行管理方法。从数据预处理、多级格网区域划分、Hilbert填充曲线数据划分三个方面确定了基于MapReduce并行计算模型的矢量数据并行入库流程;分析了基于MapReduce的矢量数据并行查询一般流程,并以并行空间选择查询和并行空间KNN查询为例进行了具体设计;针对基于Hadoop的矢量数据存储模式,从局部数据更新和整体数据更新两方面确定了矢量数据更新流程。 (4)关键技术实验验证。设计并实现了基于Hadoop的矢量数据存储与管理原型系统,实现了对矢量数据的导入、查询、更新等功能;对本文设计的矢量数据并行入库、矢量要素标识聚类效果、矢量数据并行查询效率以及矢量数据云存储模式面向服务的数据支持能力进行了实验验证。