论文部分内容阅读
一个人的噪声可能是另一个人的信号,对于离群点的挖掘是数据挖掘领域的一个重要研究方向,在数据分析和挖掘的过程中,如何利用数据挖掘的相关技术准确的检测出数据中的离群点有着十分重要的意义。本文经过对不同类型的离群点检测方法的分析,在现有离群点检测方法的基础上,针对各种方法的优势与不足进行改进和优化,本文的研究工作可归纳如下:1)提出了一种基于密度峰值聚类的离群点检测算法。针对经典聚类算法如K-means、K-mediods等方法在聚类过程中存在无法自动识别聚类数目,且对参数选择敏感的不足,采用一种快速搜索密度峰值聚类算法,该算法通过精准的划分高密度点和低密度点,在聚类准确性方面比传统聚类方法具有显著优势,参数选择具有鲁棒性,且不受数据簇分布形式的影响,在此聚类算法基础上结合新提出的一种基于局部密度的离群程度度量方式,提出了一种基于密度峰值聚类的离群点检测算法。在人工数据集和真实数据集上进行实验验证了算法的有效性。2)提出了一种基于反向近邻密度的离群点检测算法。针对经典的局部离群点检测算法LOF算法在离群点检测方面存在的两点不足,第一,在某些数据密度分布异常的情况下容易导致离群点的误判,第二,算法的复杂程度比较高。提出了一种现实世界“朋友关系”模型,通过该模型的思想着重考虑反向近邻对于节点离群程度的影响,有效地解决了LOF方法存在的不足之处,并提出了新的基于近邻和反向近邻的离群度衡量指标NLOF。在人工数据集以及真实数据集上与多种传统算法进行比较,证明了所提出的新算法具有良好的检测效果。3)提出了一种基于PageRank的数据加权离群点检测算法。基于反向近邻密度的离群点检测算法在衡量节点密度时,只考虑了邻域节点的数目,并没有考虑不同密度节点权重对于离群程度的影响,因此将PageRank算法的思想应用到离群点检测中,把数据集中的每个点看成是PageRank中不同的页面,用它来计算数据集中数据点的影响因子,根据影响因子的大小,确定离群点候选数据集,应用新的离群程度度量指标NLOF来计算候选数据集中每个数据点的离群因子,最后输出离群点。在人工数据集和真实数据集上的实验证明了算法的有效性。