论文部分内容阅读
GML是基于XML的空间信息编码标准,由OpenGIS Consortium (OGC)提出,得到了Oracle、MapInfo、ESRI等著名公司的大力支持。文本比较简单、直观,容易理解和编辑。GML正是利用文本的这些优点,来表达描述地理信息知识。当前,GML技术研究取得很多成果,如:GML查询,GML存储,GML解析,GML可视化等。GML时态模式包括描述几何和拓扑、时态参考系统和地理数据时态特征的组件。基本的时空模型致力于提供要素层和属性层的时间戳,并支持跟踪目标。状态和事件是时空数据模型的两个基本模型。数据挖掘就是从大量的,不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中,人们事先不知道,但又是潜在有用的信息和知识的过程。时空数据具有时间、空间和非空间的特点。时空数据存在空间和时间尺度;存在空间和时间的关系;存在时空相关性和空间异构性。离群点挖掘在数据挖掘领域是一项重要的研究部分,在很多领域,研究离群点比研究聚类更为有用、更为重要。在很多场合,发现离群点有着非常重要的意义。离群点挖掘的目标是发现与大部分其他对象不同的的对象。时空数据挖掘是指从时空数据库中提取用户感兴趣的时空模式与特征、时空与非时空数据的普遍关系及其它一些隐含在数据库中知识的过程。时空数据既有空间数据的特点,又有时序数据的特点。时空数据挖掘技术的应用,一方面可使时空查询和分析技术提高到发现知识的新阶段,另一方面从中发现的知识可构成知识库用于建立智能化的GIS系统,使GIS成为真正的智能信息系统。数据挖掘发展至今,已经开发出了很多数据挖掘平台,如新西兰Waikato大学开发的Weka数据挖掘软件等。基于以上分析,本文首先介绍GML相关知识,数据挖掘,文本挖掘和xml数据挖掘,时空数据概念,时空数据模型,离群点数据挖掘,基于GML时空数据的半结构化特点,提出了改进的GML时空数据离群点挖掘算法—TSDBSCAN和TSSOD。采用AO二次开发技术和vs2008C#.net技术,用MapControl实现了GML的可视化和GML文档的读取。在试验中选择两个个GML数据源,实验结果表明,对时空数据挖掘分析时,这两种离群点挖掘算法具有很好的实用性、高效性和可扩展性。有效的提取了隐含在GML时空数据文档的信息。解决了用传统离群点挖掘算法挖掘时空数据挖掘存在的的问题,实现了GML时空数据离群点挖掘。最后开发出了一个简单的GML时空数据离群点挖掘原型系统。