高维海量数据集离群点挖掘算法研究及其应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:deansam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点挖掘是数据挖掘的重要研究内容之一,其研究目标旨在发现包含在数据中的少数异常而新颖的数据分布模式。近年来随着应用的不断深入而备受数据挖掘研究者们的关注,已经成为不断探索并充满创新的研究主题。在入侵检测、风险控制、生物信息学研究等众多特殊应用领域有着广泛的应用前景。   随着网络和数据库技术高速发展,由此引发的数据爆炸使得面向大规模高维海量数据集的数据挖掘研究成为关键,很多原有的算法都不再有效,探索并构造具有高性能、高效率的新算法是解决大规模高维海量数据挖掘问题的有效途径,也是本文开展离群点挖掘问题研究的着眼点和出发点。   根据大规模高维海量数据集数据分布特点,及大规模高维海量数据集挖掘所需解决的问题,本文对离群点的挖掘算法研究现状和发展趋势进行了探讨和分析,并以大规模高维海量数据作为应用环境,分别探讨了基于网格和密度的离群点挖掘、分布式离群点挖掘、增量式离群点挖掘以及基于隐私保护的离群点挖掘等解决方法.提出了一系列面向大规模高维海量数据集的有效离群点挖掘算法。其中包括:   1、从离群点定义所选择的使用标准、技术背景、数据源的角度做了深入的分析,提出了离群点挖掘算法构造三维空间图,总结得出针对大的高维数据集的离群点挖掘算法的构造以及评判的标准。   2、提出利用信息论中的互信息计算进行特征选择的方法进行降维,并借助LOF算法中局部密度的思想,考虑到局部密度对挖掘效果的影响,将数据集D中每一点对点p的影响因子之和用该点的局部密度函数即D中最靠近该点的n个数据点对它的影响因子之和近似,提出了一种采用核密度函数的离群点挖掘改进算法Improved GridOf。3、采用自适应的最优分隔面网格划分,根据数据的分布特点进行网格划分,在子空间找到最人覆盖的稠密区域,论证了k维和k-1维稠密区域的关系,提出了GDLOF算法,证明了稠密网格和稠密区域中的点不可能成为离群点,由此可从稠密网格和稠密区域去除了大量的点.有效地减少LOF的计算量,快速挖掘群点。4、引入安全网格、离群网格的概念。采用重心作为代表点和网格7元组,提出了基于网格和密度的海量数据增量式离群点挖掘算法IGDLOF,根据网格的不同特性区别处理,可避免所有数据参与所导致的重复计算。在原始的等距离网格划分的基础上对网格进行合并、分隔等操作,将网格细分形成的稠密网格所组成的稠密区域使其更接近_丁聚类,井可考虑边界和邻近的点,覆盖的面积大,有效进行离群点挖掘。5、提出基于隐私保护的分布式离群点挖捌算法PPDOM,利用信息论中的熵值作为度量标准挖掘离群点,可以避免距离计算,消除空间的点距离的影响,同时通过属性值频度和数据对象的频度值计算,反映数据对象之间的关系,便于离群点的解释,有效地挖掘不同站点之间的全局离群点。   在研究过程中,针对所构造的各种算法进行了相应的实验验证。理论分析和实验结果验证了算法的合理性和有效性,所提出来的算法在综合性能上均明显优于现有的相应算法。
其他文献
IP_TASCM(IP Trace Analysis System based on Code Moving)数据平台是CERNET华东(北)地区网络中心,为了支持网络测量数据的整理和分析所开发的一个IP TRACE采集、分析和结果共享的
动态视觉敏感器闭环激励源是一种为动态视觉敏感器提供动态目标的视觉动态模拟器,为视觉位置姿态测量敏感器提供光学激励源,可以模拟视觉测量目标相对视觉敏感器在120米到0.9
路由协议是无线传感器网络的一个关键基础技术,由于节点能量得不到二次补充,因此,路由协议的首要目的就是节能。在大规模的数据收集网络中,节点以多跳的形式周期性地传输数据
随着数据存储设备的存储成本不断降低,数据存储已经不再是决定系统性能的主要因素,转而数据存储系统的可用性成为了当前评价系统性能的重要指标。本文从高可用性的角度出发,
网络技术的不断发展为基于公开网络的即时通信提供了便利,但随之带来的安全问题却不容忽视。在开放的网络中,密钥建立(Key establishment)是保证后续通信安全的一种重要机制。利
由于射频识别技术拥有数据信息实时改写的优越特性,非接触智能卡、射频标签当中常常存放的是重要的用户信息,甚至是隐私信息,这对于系统攻击者、黑客来讲,留下了进行安全攻击
问题分类(QC)是智能问答系统的关键技术之一。问题分类与文本分类相似,其目标是为每一个自然语言问句分配一个类别标签,此类别代表的是问句期望的最终答案的类型,在问答系统
随着移动互联网技术的发展及移动终端的普及,网络上出现了许多社交类的网站和应用,微博由于其自身操作简单,传播快速等特性,聚集了大量用户。每个用户每天可以接收成百上千条
税收是国家保障经济有序发展、政治稳定的强制性管理手段,严格、准确、及时的足额收缴税款体现着国家意志和利益。增强国家税控,保障合理有序竞争是建立国家税收制度的基本要
运动人体的检测与跟踪是当今计算机视觉领域的研究热点。随着社会公共安全体系的逐步完善,公共场所中对安全智能监控系统的要求越来越高,多家知名公司和科研机构对此都投入了