论文部分内容阅读
随着对地观测技术如全球定位导航系统、卫星遥感与航空勘测、传感器网络的进步,地理空间数据的获取手段日益先进。伴随着GIS在上世纪九十年代以来的迅猛发展,地理空间数量庞大、类型繁多和结构复杂的特点愈加明显。测绘地理信息部门拥有名副其实的大数据,仅西部测图工程的成果,数据量就达到13.4TB。如何高效合理地存储和处理GIS大数据、如何提升地图渲染性能以增强地理空间数据提供实时服务的效能、如何满足政府对于地理空间信息的新需求和技术支撑需求,直接关系到测绘地理信息部门的发展前景。Apache推出的Hadoop是目前得到广泛应用的大数据处理平台,具有高可靠性、高效性、高容错性、高效性的优点,支持PB级别数据的储存与处理。本文在基于HBase存储与处理空间矢量数据、基于MapReduce划分空间矢量数据和分布式渲染空间矢量数据方面进行了较为深入的应用研究工作,完成的主要工作具体如下:(1)基于HBase行键、列族的原理与特征,设计了能够存储和查询空间矢量数据的HBase表单格式;(2)结合HBase对输入数据类型的要求,提出了多线程条件下空间矢量数据导入HBase算法“MultiThreadInsertToHBase”,并通过编程方式实现了基于HBase的空间矢量数据多线程导入方法;(3)结合HBase支持MapReduce对其进行分布式计算操作的特性,提出了基于MapReduce和GeoTools的空间矢量数据分块算法“MapReduceDivideToShp”,实现了将HBase中的空间矢量数据按照设定条件划分成若干个较小的Shapefile格式的矢量数据文件;(4)分析和讨论了开源渲染引擎Mapnik的内在渲染机制及其相关API使用方法的细节,在搭建Hadoop实验集群的基础上,将其改造成为面向空间矢量数据渲染的Hadoop实验集群,实现了基于该实验集群的空间矢量数据的分布式渲染,提高了渲染效率。实验结果表明,基于HBase存储与处理空间矢量数据是完全可行的,对空间矢量数据的分布式渲染能够显著提升较大规模空间矢量数据的渲染效率。