论文部分内容阅读
GIS行业的蓬勃发展带来了GIS技术的飞速进步,随着空间数据规模的不断扩展,空间运算复杂程度的不断提高,单一的GIS处理模式已不再适应海量数据空间运算的新需求,同时随着计算机硬件水平的提高,云环境下的高性能GIS应运而生。如何最大限度地发挥并行设备的计算能力成为当前研究的重要话题,以并行任务分解及空间数据划分为主的策略研究成为高性能GIS进一步深入的前提。论文根据并行GIS的运算需求,研究了基丁空间聚集的划分策略,提出了一种新的基于空间统计聚类思想的划分策略,并在并行环境下实现了顾及空间对象形态的动态数据划分策略。同时,给出了进行高质量的数据划分标准——良好的空间邻近性、均衡的数据量负载、较少的数据冗余、较低的划分时间消耗比。论文立足实际应用与科学技术的发展,从GIS应用中面临的问题出发,根据空间数据的特点,结合计算机科学技术的进步,讨论了解决矢量空间数据划分的算法与策略,并在并行环境下进行了部署与测试。本文首先综述了相关领域的研究发展,即云计算与并行计算,在透彻理解其期技术核心的基础上,全面分析了当前国内外对于云计算及数据划分的研究进展与应用,为论文后续的研究提供了理论基础、技术支撑。同时也确立了论文的研究方向和重难点,即顾及空间数据形态的并行环境下矢量空间数据的划分方法与策略。论文介绍了常用的数据划分方法,并结合矢量空间数据的特点明确了数据划分的原则,包括数据划分负载度量标准、矢量空间对象的位置定义、数据不相交原则、空间数据量、空间邻近性等。对比分析了传统的矢量空间数据划分方法存在的问题,阐述了并行环境下的矢量数据划分问题的核心,即对N个存储空间上的一个空间数据集进行一组空间操作,通过有效的数据划分将数据分配到不同的存储空间上,充分利用存储资源以提高空间操作的响应时间。论文的重点是并行环境下的矢量空间数据划分方法与策略的研究。本文根据空间数据划分的核心内容,结合空间数据聚集及统计聚类的特点,设计实现了两种划分策略体系。空间数据的划分本质是根据空间数据的聚集程度将数据划分为若干子块,而空间聚集的将一种将空间数据由多维集合映射到一维线性排列的特征,能够满足数据划分的需求。空间聚集里重要的Peano族空间填充曲线具有良好的空间聚集能力,能够一次遍历所有空间对象,以Hilbert曲线为代表的划分算法以建立对象良好的空间排列码为重点,按空间排列码的顺序进行划分。基于空间填充曲线的划分方法,不需要多次遍历空间对象,只需要一次性编码获取对象的空间排列即可,效率较高,时间消耗比将会很小,同时又有着很高的数据精确度。实验发现,空间曲线的方法存在一些由于曲线自身缺陷造成的问题——在空间聚集上不够理想。论文又针对空间聚集较差的数据探讨新的解决方法,研究了基于统计聚类思想的数据划分方法,从统计学的角度将空间上具有某种相同属性的空间对象归为同一类,从而得到划分结果。空间聚类则以统计具有相似空间特征的数据为准则,将空间对象聚类,而为了保证空间数据的邻近性,采用距离最近或面积增量最小的聚类标准,可获得较好的划分效果。为了验证论文研究的关键方法与技术的正确性与可行性,论文在并行环境下针对不同的空间要素类型(点、线、面)以及不同的数量规模的多组空间数据进行实验测试。选择具有普遍性并涵盖划分数据的一般性特征(即数据分布不均衡,数据量海量等)实验数据,对两种划分策略的正确性与效率进行了验证与测试。最后,论文基于对两种策略划分策略体系进行的系统、全面的实验测试,以实际运算效率和计算资源利用最优为最终目标,提出了在不同数据量、不同的数据形态、不同数据分布、不同计算要求情况下的空间数据划分策略动态选择方案。论文研究的重点技术和方法具有通用性,即本文研究的矢量空间数据的划分方法与策略设计与实现,能应用于各类并行计算环境下的空间运算的任务分解及矢量空间数据的分分布式部署。