离群点检测算法研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:cyld2006_ldcy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个人的噪声可能是另一个人的信号,对于离群点的挖掘是数据挖掘领域的一个重要研究方向,在数据分析和挖掘的过程中,如何利用数据挖掘的相关技术准确的检测出数据中的离群点有着十分重要的意义。本文经过对不同类型的离群点检测方法的分析,在现有离群点检测方法的基础上,针对各种方法的优势与不足进行改进和优化,本文的研究工作可归纳如下:1)提出了一种基于密度峰值聚类的离群点检测算法。针对经典聚类算法如K-means、K-mediods等方法在聚类过程中存在无法自动识别聚类数目,且对参数选择敏感的不足,采用一种快速搜索密度峰值聚类算法,该算法通过精准的划分高密度点和低密度点,在聚类准确性方面比传统聚类方法具有显著优势,参数选择具有鲁棒性,且不受数据簇分布形式的影响,在此聚类算法基础上结合新提出的一种基于局部密度的离群程度度量方式,提出了一种基于密度峰值聚类的离群点检测算法。在人工数据集和真实数据集上进行实验验证了算法的有效性。2)提出了一种基于反向近邻密度的离群点检测算法。针对经典的局部离群点检测算法LOF算法在离群点检测方面存在的两点不足,第一,在某些数据密度分布异常的情况下容易导致离群点的误判,第二,算法的复杂程度比较高。提出了一种现实世界“朋友关系”模型,通过该模型的思想着重考虑反向近邻对于节点离群程度的影响,有效地解决了LOF方法存在的不足之处,并提出了新的基于近邻和反向近邻的离群度衡量指标NLOF。在人工数据集以及真实数据集上与多种传统算法进行比较,证明了所提出的新算法具有良好的检测效果。3)提出了一种基于PageRank的数据加权离群点检测算法。基于反向近邻密度的离群点检测算法在衡量节点密度时,只考虑了邻域节点的数目,并没有考虑不同密度节点权重对于离群程度的影响,因此将PageRank算法的思想应用到离群点检测中,把数据集中的每个点看成是PageRank中不同的页面,用它来计算数据集中数据点的影响因子,根据影响因子的大小,确定离群点候选数据集,应用新的离群程度度量指标NLOF来计算候选数据集中每个数据点的离群因子,最后输出离群点。在人工数据集和真实数据集上的实验证明了算法的有效性。
其他文献
自碰撞检测是虚拟手术仿真中的重要问题,自碰撞检测的效率是影响虚拟仿真应用真实感和沉浸感的重要因素。本文对白碰撞检测算法进行了深入的研究,主要包括以下几个方面的内容
随着信息时代的发展,各种商业和科学数据库的数据量急剧增长,远远超过了人类目前已有的分析和理解能力。数据挖掘正是在这样的背景下产生的新的研究领域,主要目的是从数据集
近年来,人体运动分析成为图像处理和计算机视觉领域中一个热点课题,它在人体动画、游戏、虚拟现实和增强现实、人机交互、视频监控、体育运动分析、辅助临床医疗诊断等领域都
Hidden Web中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然Hidden Web的信息量变得越来越大,但是现有搜索引擎对其的搜索
随着电信技术的日益成熟和电信市场竞争的逐步规范,电信运营商面对的竞争压力越来越大。为了在竞争中取胜,必须推出独具特色的、更具吸引力的业务吸引客户。电信运营商的经营
离群点检测是数据挖掘中重要的研究分支,用于识别某些特征显著区别于其他观测数据的对象。在实际应用如评估金融风险、检测结构的缺陷、侵入检测等领域中会出现的一些离群数据
随着计算机技术、网络技术,特别是Internet技术的飞速发展和广泛普及,人类社会正处于由工业经济向信息经济的深刻变革之中,信息化已经成为当今世界经济和社会发展的倍增器,成为了
近年来,随着嵌入式系统飞速发展,基于Linux的嵌入式系统已经能够提供统一的、可伸缩的解决方案,利用嵌入式Linux实现远程监控、图像采集与压缩成为可能。针对这一点,本文设计
随着互联网的高速发展和数据的爆炸性增长,用户面临着日益严重的信息过载问题,社会化媒体的兴盛使用户更加容易淹没在信息的海洋中。推荐系统作为一种比搜索引擎更加高效的信息
以总完工时间为目标的Flow shop调度问题是一个重要的制造加工系统,广泛应用于工业环境中。流水调度是很多实际流水线生产调度问题的简化模型,也是一类典型的NP完全问题,已被证