论文部分内容阅读
离群点挖掘是数据挖掘的重要研究内容之一,其研究目标旨在发现包含在数据中的少数异常而新颖的数据分布模式。近年来随着应用的不断深入而备受数据挖掘研究者们的关注,已经成为不断探索并充满创新的研究主题。在入侵检测、风险控制、生物信息学研究等众多特殊应用领域有着广泛的应用前景。
随着网络和数据库技术高速发展,由此引发的数据爆炸使得面向大规模高维海量数据集的数据挖掘研究成为关键,很多原有的算法都不再有效,探索并构造具有高性能、高效率的新算法是解决大规模高维海量数据挖掘问题的有效途径,也是本文开展离群点挖掘问题研究的着眼点和出发点。
根据大规模高维海量数据集数据分布特点,及大规模高维海量数据集挖掘所需解决的问题,本文对离群点的挖掘算法研究现状和发展趋势进行了探讨和分析,并以大规模高维海量数据作为应用环境,分别探讨了基于网格和密度的离群点挖掘、分布式离群点挖掘、增量式离群点挖掘以及基于隐私保护的离群点挖掘等解决方法.提出了一系列面向大规模高维海量数据集的有效离群点挖掘算法。其中包括:
1、从离群点定义所选择的使用标准、技术背景、数据源的角度做了深入的分析,提出了离群点挖掘算法构造三维空间图,总结得出针对大的高维数据集的离群点挖掘算法的构造以及评判的标准。
2、提出利用信息论中的互信息计算进行特征选择的方法进行降维,并借助LOF算法中局部密度的思想,考虑到局部密度对挖掘效果的影响,将数据集D中每一点对点p的影响因子之和用该点的局部密度函数即D中最靠近该点的n个数据点对它的影响因子之和近似,提出了一种采用核密度函数的离群点挖掘改进算法Improved GridOf。3、采用自适应的最优分隔面网格划分,根据数据的分布特点进行网格划分,在子空间找到最人覆盖的稠密区域,论证了k维和k-1维稠密区域的关系,提出了GDLOF算法,证明了稠密网格和稠密区域中的点不可能成为离群点,由此可从稠密网格和稠密区域去除了大量的点.有效地减少LOF的计算量,快速挖掘群点。4、引入安全网格、离群网格的概念。采用重心作为代表点和网格7元组,提出了基于网格和密度的海量数据增量式离群点挖掘算法IGDLOF,根据网格的不同特性区别处理,可避免所有数据参与所导致的重复计算。在原始的等距离网格划分的基础上对网格进行合并、分隔等操作,将网格细分形成的稠密网格所组成的稠密区域使其更接近_丁聚类,井可考虑边界和邻近的点,覆盖的面积大,有效进行离群点挖掘。5、提出基于隐私保护的分布式离群点挖捌算法PPDOM,利用信息论中的熵值作为度量标准挖掘离群点,可以避免距离计算,消除空间的点距离的影响,同时通过属性值频度和数据对象的频度值计算,反映数据对象之间的关系,便于离群点的解释,有效地挖掘不同站点之间的全局离群点。
在研究过程中,针对所构造的各种算法进行了相应的实验验证。理论分析和实验结果验证了算法的合理性和有效性,所提出来的算法在综合性能上均明显优于现有的相应算法。