离群点挖掘及其内涵知识发现研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:fatty19830801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是当今信息社会宝贵的资源,发现并利用潜藏在那些复杂数据集中的有用知识已成为科学决策的前提。数据挖掘技术通过关联规则、聚类及分类等方法实现从大量的、不完全的、有噪声的数据中,提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识。离群挖掘是数据挖掘中的一项重要技术。所谓离群点就是那些明显偏离其它数据、不满足数据的一般模式或行为,以至于被怀疑可能是由另外一种完全不同的机制产生的数据对象。离群数据不等同于错误数据,有的离群数据可能蕴含着重要的信息。如欺诈行为、入侵行为、不寻常的消费行为等。因此,对离群数据进行研究具有十分重要的意义。离群挖掘可分为3个子问题:①在给定的数据集合中什么样的数据是被认为不一样的;②找到一个有效的方法来挖掘这样的离群点;③对离群点的合理解释,即离群点的内涵知识。已有的很多离群挖掘算法都只是集中于前两个子问题,即在检测出离群点后未能揭示离群点的内涵知识,而这个才是用户真正关心的问题,也是我们挖掘的真正目的。本文提出了一种基于关联空间的离群挖掘算法,能够找出造成离群点离群的最小属性集,揭示离群点的内涵知识——正是这些属性造成了离群点的离群。具体地讲,本文的研究工作主要包含以下几个方面:①研究了数据挖掘相关概念和技术,包括数据挖掘功能和分类、数据预处理、聚类分析及关联规则。②分析了k-means算法的优缺点,并总结了各种初始中心选取方法,最后提出了一种新的初始值选取方法。③对基于距离的离群挖掘技术进行了较为全面的分析和总结,设计了一种基于k-最近邻距离和的离群挖掘算法,介绍了基于分区的算法。④通过分析算法FindNonTrivialOuts,提出了一种基于关联空间的离群挖掘算法,并给出实验验证。
其他文献
随着海洋科学的快速发展,海洋信息资源的地位越来越高,如何保证信息之间的共享和流动也成为了当前研究的重点。海洋信息学科众多,种类复杂,尤其是各个研究机构并没有统一的数
在信息时代,随着互联网的发展,人类积累了海量数据。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据,因而数据挖掘显得越来越重
图像是因特网上内容的一个重要组成部分,它能够直接、形象的表达信息。随着数字照相设备和具有拍照功能的手机的普及,数字图像的数量正在急剧的膨胀。与此同时,图像信息的应
车载自组织网络的一个重要特征是车辆节点具有很快的移动速度,尤其在高速公路场景中。车辆节点的快速移动特性,造成车载网络拓扑结构的动态变化,导致自组织网络中多跳(multi-
在软件开发中,开发人员在调试时花了大量时间。普通的调试器提供了很多帮助,但是调试仍然是一项艰巨的任务。为此开发人员提出了基于快照的回溯调试技术,其中的快照技术很多
当人们生活快速发展的同时,无线通信技术也随着快速发展,频谱资源的匮乏和无线应用需求持续增长的冲突越来越明显。认知无线电技术为了解决频谱资源利用率的问题应用而生。该技
目标检测历来被认为是一个十分复杂的问题,同时也是图像理论发展的瓶颈之一。小波变换和分形理论的提出拓宽了人们的视野。基于小波变换的目标检测是利用小波变换的多分辨率
VC-1是2003年微软在WMV9(Windows Media Video 9)基础上提出的视频压缩技术,2006年4月,SMPTE正式颁布了VC-1视频编码标准,并随后发布了解码算法的参考模型。VC-1整合了MPEG及
随着通信技术、嵌入式计算技术和传感器技术的飞速发展和日益成熟,无线传感器网络在军事、环境监测、医疗护理、空间探索等方面都显示了广阔的应用前景,被认为是21世纪最有发
大数据、云计算以及目前类型众多的网络业务的出现,导致传统电信网络的劣势越来越突出。光交换技术的灵活性以及光传输介质(光纤)的大容量、低损耗等优点使得全光网络相比于传统