论文部分内容阅读
近些年来,随着科学技术与计算机技术的飞速发展,数据挖掘技术得到了快速的发展并运用于各个领域。聚类分析与离群点检测技术是数据挖掘技术中最重要的两个方面。离群点检测是数据挖掘知识发现中一项重要研究领域,如电子商务中的欺诈行为监测,网络攻击异常检测等。所谓离群点,即数据集中偏离正常行为的点对象,离群点检测过程即在原始数据集中寻找“异常模式”的过程。离群点检测技术最早运用于统计领域,即基于统计分布的离群点检测。随后专家学者们提出了基于距离的方法,基于密度的方法,基于偏差的方法等多种经典的离群点检测方法,这些方法在一定程度上能检测出适用本身算法的离群点,但均存在着一定的缺陷与不足,如依赖于用户预先设置的参数,检测效率与检测精度低等。高维空间与大数据集中离群点检测是离群点发现领域中非常重要的一个领域,近来受到了广泛关注。但由于高维空间中数据集存在数据分布稀疏,属性维度高等特性,导致传统离群点检测方法不再有效。如何寻找适用高维空间与大数据集中离群点发现方法是当前高维空间离群点检测领域面临的一大难题。针对以上问题,本文主要对高维空间与大数据集中离群点检测方法进行了研究。本文首先对离群点检测方法进行了分析与研究,重点阐述了基于统计的,基于距离的,基于密度的与基于偏差的四种传统离群点检测方法,并对各自算法存在的问题进行了分析与比较;接着对高维空间与大数据集特性进行了分析与研究,重点阐述了高维空间与大数据集上数据挖掘的方法与特点;针对传统离群点检测方法在高维空间大数据集离群点发现存在的问题,本文提出了一种基于空间局部偏离因子(SLDF)离群点检测算法,用空间局部偏离因子度量空间点对象的离群程度,同时考虑对象属性权重的影响因素;最后在将高维空间进行网格划分后,采取SLDF算法对剩余离群点集进行检测,试验结果表明:本文算法能够更好地发现空间局部离群点,并且更适用于高维大数据集的空间离群点检测,其有效性与准确性均优于LOF算法。