论文部分内容阅读
离群检测是数据挖掘的基本任务之一,其目的是要消除噪音或发现潜在的、有意义的知识。空间离群检测是空间数据挖掘的重要内容,发现空间数据中与其他对象不一致的对象,即空间邻域中属性与其它对象明显不同的空间对象。离群数据的探测和分析是一项非常有意义的数据挖掘任务,在国内外得到了广泛的关注,并被应用到诸多的领域中。
GML是Intemet环境下的地理信息表示和传输的标准,大量的空间数据信息以GML格式存储和传送,面向GML的数据挖掘具有重要的理论意义和实际应用价值。
现有的空间离群检测算法都侧重于考虑单个数据对象的属性特点进行离群分析,而没有考虑具有包含、相邻等空间拓扑关系构成的空间对象群的综合特性分析。本文研究了空间拓扑关系下的离群检测问题,取得的成果如下:
1.在分析空间拓扑包含关系时,首先给出了拓扑关系分析中的相关定义以及判断对象包含关系的算法,在这基础上提出面向GML的提取面包含关系的算法。进一步讨论了面对象之间相互影响的拓扑属性的相关思想和计算方法,提出了空间对象之间相互影响的拓扑属性的计算算法,这为后续的离群分析提供了支持。
2.提出了拓扑包含关系中离群面的检测算法DOR_IR,把面包含的对象看作面对象的属性,采用基于关联的方法,根据被包含对象的属性建立面对象的关联连接集合,相应于“噪音”的面就是离群面。对算法DOR_IR进行测试,实验结果表明算法DOR IR在对基于拓扑包含关系的离群面分析有效。
3.提出了拓扑包含关系中局部离群面的检测算法DLO_IR。空间属性一方面用于计算空间对象的拓扑包含关系;另一方面用于计算每个面与邻域面相互影响的空间拓扑属性,由此得到每个邻域面在邻域集合中所占的比例因子。基于比例因子与非空间属性计算每个面的局部离群系数,并以此找出符合离群阈值条件的离群对象。对算法DLO IR进行了测试,实验结果表明算法能够挖掘基于拓扑包含关系的离群面,在实际应用中也是有效的。