论文部分内容阅读
空间聚类方法是空间数据挖掘技术的一个重要组成部分,空间聚类是将空间数据集中的空间对象按照一定的规则和方法聚合成多个数据簇(类)的过程。空间聚类在空间数据库分析领域中有广泛地应用。空间聚类算法作为一种重要的空间数据挖掘方法在地理信息系统、遥感影像处理等领域有着广泛的应用。常被用以图像识别、模式获取、统计趋势分析等方面。传统的空间聚类方法在处理大规模空间数据集时,由于无法将数据集一次性装入内存,在以数据对象之间距离计算的邻域查询方式下,算法需要重复扫描存储于磁盘中的数据对象,这必将导致大量的I/O开销,严重地影响了算法的效率。若要有效地提高算法的执行效率,需要采取合适的方法降低聚类算法所处理空间数据集的规模,以最小的I/O代价获得正确的聚类结果。数据分区是一种行之有效的方法,采用数据分区技术,使得算法可以将数据分区读入内存进行聚类运算,大大提升了算法的效率。由于数据分区的目的是为了将数据装入内存进行运算,所以采用数据分区的聚类算法需要确定分区的数据量、大小和位置,并且需要对各分区聚类结果进行精确的合并。格网划分结构是一种使用平行于各数据轴的若干条分割线对数据空间进行划分而得到的划分结构,格网划分结构可以将数据空间划分成多个均匀或者不均匀的子数据空间,并且能够方便地表征这些子数据空间的大小和位置。通过这种划分结构,可以使数据分区聚类的处理更加方便和直接。本文结合空间分区技术,针对大数据量空间数据集的空间聚类运算,提出了一种基于格网划分的动态数据分区的方法,结合本文提出的一种基于数据邻域关系等价可逆原理的邻域单向查询计算方法,以基于密度的空间聚类思想为基础,设计并实现了基于动态数据分区聚类的空间聚类算法,该算法以格网技术对数据空间进行划分,并且通过逐级读取网格单元集合的方式实现动态数据分区聚类。实验证明,该算法能够适应大数据量空间数据集中的聚类运算,具有可靠的聚类质量和高效的运算性能。针对在高维空间数据集以及过小粒度的数据空间格网划分所产生大量的空数据网格单元,从而导致网格单元查询效率的低下的问题,本文结合四叉树分区技术,提出一种以提高网格单元搜索性能为目标的网格搜索索引树QG-Tree,该索引结构以四叉树分区的方式将格网空间划分成一棵层次树,其中包含根节点、中间结点和叶子结点等结点类型。索引树中每个结点都对应一个分区中非空单元的最小包含范围,这种索引方式能够有效地降低格网的存储消耗,并且能够极大地提高网格单元的查询性能。文中给出了QG-Tree的定义以及构建和网格查询算法。在研究基于密度的聚类算法和基于网格的聚类算法的优缺点的基础上,本文结合数据分区聚类思想,提出一种基于网格密度的聚类算法,该算法的重点是通过计算得到密集网格单元,本文以包含至少一个核心聚类对象的网格来定义密集网格单元,采用基于密度聚类的思想,通过不完全的数据邻域查询方法获取全部密集网格单元,并在数据邻域查询运算的同时合并密集网格单元并扩展聚类。由于这种方法只需对部分数据执行邻域查询运算而得到聚类结果,因而可以有效减少算法的计算量,达到提高算法效率的目的,算法同时采用QG-Tree建立格网索引结构,提高了网格单元的查询性能。实验证明,该算法具有较高的空间聚类性能。论文中对空间聚类技术在地理信息系统中的应用进行了研究和分析,并以集成空间聚类模块的土地利用分析系统进行了实证分析。最后,本文对研究内容做出总结,并对后续研究进行了探讨和展望。