空间离群点挖掘技术的研究

被引量 : 36次 | 上传用户:fallleaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间离群点是与其空间邻域中其它空间对象的非空间属性值存在明显差异的空间对象。空间离群点挖掘是空间数据挖掘的一个重要分支,在交通控制、遥感图像分析、气象预报和人口统计数据分析等应用中可揭示重要现象。随着传感器设备技术的发展,数据采集设备的数量越来越多,精度越来越高,采集的项目也越来越多,因此数据量越来越大,维数越来越高。然而现有的空间离群点挖掘算法主要是针对单维或中低维的中小规模数据量的挖掘,难以适应高维大数据量的挖掘,并且现有算法没有充分考虑空间数据的特点,挖掘的不是真正意义上的空间离群点,而是全局离群点。算法存在用户依赖性大,检测精度低,挖掘效率低等局限。此外,随着网络技术、传感器技术和无线通信技术的发展,数据的采集、收集、保存和处理都呈现分散状态,因此,基于分布环境的数据挖掘也引起人们的关注,但基于分布环境的空间离群点挖掘算法还未见报道。本文将根据空间数据自身的特点,研究属性划分方法和属性的权值设置方法,空间离群程度的度量方法,实现挖掘精度高、用户依赖性少的高效的空间离群点挖掘算法。针对现有算法主要局限在数值型属性数据处理上的不足,通过将非数值型数据转化为数值型数据,实现基于混合型属性的统一算法。针对高维大数据量,采用剪枝策略、基于子空间的离群点挖掘和集成学习的方法实现高维大数据量的挖掘:针对分布环境下的空间离群点挖掘,提出了基于隐私保护的空间离群点挖掘算法。论文的主要贡献如下:(1)提出基于属性划分的方法解决局部离群点的挖掘问题。一般的局部离群点的挖掘采用的是满维属性的挖掘方法,如LOF(Local Outlier Factor)方法,其结果是局部邻域的确定非常耗时,由于所有维属性不加区分地等同看待,所以离群度度量的准确性受到影响,影响了挖掘的精度和速度。提出将数据对象的属性划分为标识属性、环境属性和固有属性,标识属性起着标识对象的作用,如数据对象名称等;环境属性决定了对象所处环境,如地理位置、时间、序列等,可利用环境属性确定邻域;固有属性是数据对象特有属性,包括行为属性和状态属性,决定了对象的行为和状态特征,可利用该类属性确定对象的离群程度。(2)提出空间数据对象的离群程度的新的度量方法,即基于空间数据特性的空间局部离群系数SLOF(Spatial Local Outlier Factor)的度量方法;提出基于空间离群度的空间离群点挖掘算法ASLOF(Algodthm based on SLOF)。将数据对象的属性分为标识属性、空间属性和非空间属性,利用空间属性确定空间邻域、建立空间索引,利用非空间属性确定对象的离群程度,并在离群度的度量中引入属性的权值,提高度量精度,据此提出了基于空间离群度的空间离群点挖掘算法。理论证明和实验测试结果表明,ASLOF在挖掘的精度、用户依赖性和算法性能上均优于现有算法。(3)提出混合属性的统一的空间离群度的度量方法和挖掘算法。从离群点性质入手,通过统计分类属性的频度,将分类属性转化为数值型,并通过属性的权值设置和属性的标准化等处理后,实现基于混合属性的空间离群点的统一挖掘算法。实验结果表明,算法可有效实现混合属性的空间离群度的统一度量计算和有效挖掘。(4)提出基于集成学习的子空间离群点集成的高维大数据量的空间离群点快速挖掘算法S2OEAHL(Subspace Spatial Outlier Ensemble Algorithm baSed High-dimensional Large data sets)。由于很多空间数据对象的标识属性中含有空间对象所在的地域标识,根据地域标识构建对象的层次编码树,基于层次编码树,实现数据的分区和对象的快速检索,通过计算分区的上下界和使用包围盒检测方法,剪除明显不含有离群点的分区,保留可能含有离群点的分区作为候选分区,实现了分区的快速剪枝,从而降低数据处理数量。对候选分区采用子空间挖掘方法,为避免与属性维度成指数关系的大量搜索,采用指定子空间挖掘和基于子空间权值的集成融合方法来解决高维数据的离群点挖掘问题。算法的实现中采用了基于单维子空间的离群系数挖掘方法,并利用优化计算的方法求得被检测对象所对应的各属性的权值,在此基础上通过集成融合函数求得被检测对象的离群度,根据离群度的排序可获得所求离群点。理论证明和实验结果均表明算法的有效性和计算的高效性。(5)提出基于分布环境的隐私保护的空间离群点挖掘算法DPPASLOF(DistribuIcd Privacy Preserving Algorithm based on SLOF)。算法中利用空间数据的局部性,发挥各数据方的主动参与的能力,借助于空间索引技术和隐私保护协议以提高搜索能力和隐私保护能力。理论证明算法的安全性,计算的高效性和低通信代价。
其他文献
词性标注是自然语言处理词法分析中一种较为成熟的技术,而自然语言处理在信息检索中又占有举足轻重的作用,将词性用于外文文献信息检索已有一定的研究,研究表明词性用于外文
基于构造与煤层赋存状态的关系,为进一步认识柴达木盆地北缘反转构造的控煤作用,依据反转构造识别原则,对柴达木盆地北缘各构造分区中典型煤矿区的地质剖面进行反转构造识别,
本试验旨在研究乳仔猪日粮中添加喷雾干燥血浆蛋白粉和酵母蛋白粉对其生产性能、断奶后腹泻率以及血清免疫指标的影响。试验选择18窝乳猪随机分为3组,每组6窝。处理1日粮中添
英国奇幻作家刘易斯的《纳尼亚传奇:狮子女巫魔衣橱》与基督教文化之间有着必然的联系。该作品与《圣经》两者之间,无论是在意象、人物还是在主题方面都存在着互文关系。正是
离群点挖掘又称异常检测、小事件检测、例外挖掘、孤立点挖掘、偏差检测等。离群点可能是“脏数据”,也可能是与实际对应的有意义的事件。从知识发现的角度看,在某些应用中,
近年来,随着各种新方法、新技术的应用,针对半干旱、半湿润气候带的华北平原和黄土高原的研究中,农业生态系统水分运移模型、农田水分优化管理与调控技术等方面已取得了丰硕
由于沥青路面有其特有的路用性能以及行车舒适性,沥青路面在我国各等级道路中的应用非产广泛。在近十多年来,国家一直对道路建设大量投入,由于长期的使用过程中沥青路面中的
微小核糖核酸是一类由18~25个核苷酸所构成的内源性非编码小核糖核酸分子,广泛参与哺乳动物基因的调控,在细胞分化、增殖、凋亡等生物学过程中具有重要的作用。微小核糖核酸
本研究从整合的视角探讨了多种主动行为间的区别与联系。首先,本研究从社会过程、发展与变革过程及工作结构三大研究领域中,选取了掌控行为、关注战略、反馈寻求等九种主动行
【正】 广西左江流域的龙州、宁明、崇左、扶绥等县,在沿河两崖和江岸附近的崖壁上,三十年来,先后发现了六十八处崖壁画址。计宁明五处,位于左江支流的明江右岸崖壁;龙州县十