论文部分内容阅读
GML的时空数据中隐含着许多的知识信息,这些隐含着的模式与特征,数据与数据之间的关系及其特征等等,通过挖掘这些知识让人们增加对自然界的了解,获取自然界事物的联系、规律和相互间的作用,为人类的生产和生活起积极的指导和决策作用。然而,由于GML时空数据的时间、空间以及半结构化特性,导致无法使用精确的模式来定义GML时空数据,而使得从GML时空数据中进行信息提取比从传统数据中挖掘信息复杂得多。同时,GML时空数据量繁多和计算密集型的特点,使得进行数据挖掘时对计算机的硬件要求一定程度上制约着信息化处理的进程。为此本文在搭建的云计算环境Hadoop平台下,提出了两种GML时空的并行聚类挖掘算法,并且设计和实现了并行GML时空的聚类挖掘原型系统,将聚类结果以地图的形式可视化的呈现出来。在分布式并行计算环境下,可以在很大程度上提高海量时空数据挖掘时遇到的瓶颈问题,即效率问题。具体如下:(1)提出两种针对GML时空序列数据挖掘的并行聚类算法,第一种是提出了结合K-means基于时间序列的GML时空相似度度量,把空间属性和时间序列一同考虑来度量空间对象的时间序列相似度,通过并行的K-means聚类算法来进行数据挖掘。(2)第二种是根据空间邻域的定义,先确定GML时空对象的空间邻域,再在该邻域内计算两具有时间序列属性的时空对象的基于时间序列的相似度,结合并行的DBSCAN (STN_PDBSCAN)聚类算法进行时空数据的挖掘。(3)通过搭建Hadoop云计算的平台,采用MapReduce的编程模型将K-means和DBSCAN两种聚类算法进行并行实现。设计实现并行GML时空聚类挖掘的原型系统,并在该系统上应用实际的具有时间序列属性的GML气象数据,通过实验验证了两种并行算法聚类质量的有效性、算法的高效性能以及算法良好的可扩展性能。(4)最后,将聚类所得的结果以地图的形式可视化的呈现出来。