基于网格划分的高维大数据集离群点检测算法研究

被引量 : 0次 | 上传用户:jianghong_jones
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着科学技术与计算机技术的飞速发展,数据挖掘技术得到了快速的发展并运用于各个领域。聚类分析与离群点检测技术是数据挖掘技术中最重要的两个方面。离群点检测是数据挖掘知识发现中一项重要研究领域,如电子商务中的欺诈行为监测,网络攻击异常检测等。所谓离群点,即数据集中偏离正常行为的点对象,离群点检测过程即在原始数据集中寻找“异常模式”的过程。离群点检测技术最早运用于统计领域,即基于统计分布的离群点检测。随后专家学者们提出了基于距离的方法,基于密度的方法,基于偏差的方法等多种经典的离群点检测方法,这些方法在一定程度上能检测出适用本身算法的离群点,但均存在着一定的缺陷与不足,如依赖于用户预先设置的参数,检测效率与检测精度低等。高维空间与大数据集中离群点检测是离群点发现领域中非常重要的一个领域,近来受到了广泛关注。但由于高维空间中数据集存在数据分布稀疏,属性维度高等特性,导致传统离群点检测方法不再有效。如何寻找适用高维空间与大数据集中离群点发现方法是当前高维空间离群点检测领域面临的一大难题。针对以上问题,本文主要对高维空间与大数据集中离群点检测方法进行了研究。本文首先对离群点检测方法进行了分析与研究,重点阐述了基于统计的,基于距离的,基于密度的与基于偏差的四种传统离群点检测方法,并对各自算法存在的问题进行了分析与比较;接着对高维空间与大数据集特性进行了分析与研究,重点阐述了高维空间与大数据集上数据挖掘的方法与特点;针对传统离群点检测方法在高维空间大数据集离群点发现存在的问题,本文提出了一种基于空间局部偏离因子(SLDF)离群点检测算法,用空间局部偏离因子度量空间点对象的离群程度,同时考虑对象属性权重的影响因素;最后在将高维空间进行网格划分后,采取SLDF算法对剩余离群点集进行检测,试验结果表明:本文算法能够更好地发现空间局部离群点,并且更适用于高维大数据集的空间离群点检测,其有效性与准确性均优于LOF算法。
其他文献
本文从制度持续性、准入机制等方面详细论述了基本医疗保险与商业健康保险在衔接中存在的问题,并基于中国的基本国情,参考南非解决大病保险在基本医疗保险与商业健康保险在衔
可转换债券,是指发行公司根据相关程序发行,在一定时期内依据合同约定条款可以将其转换为公司股票的公司债券,是一款同时具有债券和股票特性的复合型可转换金融衍生产品。美
随着网络基础设施的持续建设和网络终端技术的发展,国内网络用户数量和网络应用规模快速增长。国家对于第三代移动通信技术、三网融合工程和物联网等新兴技术领域的政策扶持
目的:肾间质纤维化是各种原因造成的肾小管及肾间质病变的最终结果,是所有慢性肾脏疾病发展至终末期肾衰竭的共同通路。肾间质纤维化的发生发展是一个复杂的过程,该过程涉及
管棚超前支护法是近年发展起来的一种在软弱围岩中进行隧道掘进的新技术,因其施工安全可靠、支护效果好、工艺简单、工期短、经济效率高等优点在世界各国被广泛采用。作为管
本文介绍了保时捷2018新款卡宴车用锂蓄电池的特点,叙述了锂蓄电池的结构与组成,介绍了锂蓄电池的充放电特性以及存放的要求,总结了通过检测对锂蓄电池进行分类的方法,并强调
乌鲁木齐市的能源结构目前以煤为主,人均耗煤约3.96吨,位居全国城市人均耗煤量第一位,是全国人均耗煤量的近4倍。乌鲁木齐市冬季大气污染是典型的“煤烟型”污染。为了进一步
桥梁周围环境温度作用包括太阳辐射作用、空气对流作用以及长波辐射作用等,环境温度变化导致结构温度场发生变化,结构在温度梯度作用下产生温度变形和温度应力,经研究这种温
一再发生的刑事错案犹如一面镜子,折射出一个国家在特定时期的刑事司法状态。刑事错案的发生不仅使被告人的自由权甚至生命权造成无法弥补的损害,更重要的是它破坏了民众对司
目的:背根神经节(dorsal root ganglia, DRG)的炎症反应在病理性疼痛的发生和维持中发挥重要作用。在大鼠脊神经结扎模型(spinal nerve tight ligation, SNL)全身应用糖皮质激