论文部分内容阅读
作为数据挖掘的一个重要的研究领域,异常检测着眼于对不同类型和来源的数据进行分析,从而为隐含在其中的异常对象建立模型,利用基于距离、密度、聚类等技术构建的方法快速准确地发现数据集中的异常对象。由于在学术界和工业界有着广泛的应用,异常检测获得了相关领域大量研究者们的关注,产生了许多的经典模型和方法。然而随着传感器网络的发展和大数据时代的来临,大量应用领域的数据开始呈现出多源化的趋势。多源数据中存在的数据类型多样化,数据分布差异化,依赖关系复杂化等现象是基于多源数据的异常检测所面临的关键问题。本论文针对数据之间的相互依赖关系,构建了基于图的异常检测模型,使用随机游走的方法分析图中的异常节点。另一方面,本论文还构造了基于多视图的异常检测模型对不同来源数据之间的相关和差异进行刻画,利用数据在不同视图中的不一致性进行异常检测。总体来说,本论文从以下四个方面对多源数据的异常检测问题展开了研究:(1)传统基于图的异常检测模型在考虑每个样本的异常度时往往只关注于图中节点、连边或者它们之间的相互关系,而忽视了样本的局部邻域信息。本论文提出一种基于局部信息图的异常检测算法(LIGRW),该算法将数据集中每个样本看作是图中的一个节点,构造节点之间的连边时只考虑每个节点的局部邻域,在待检测数据集上构造一个非对称的带权有向图。将一个自定义的随机游走过程应用在该图上,使得随机游走点以较大概率从正常样本对应的节点跳转到异常样本对应的节点。同时,考虑到局部信息图中的非对称关系可能造成随机游走过程无法正常收敛的问题,基于异常样本应该以更高的权重被访问的原则,我们提出了两种不同类型的重启向量,保证了随机游走点在重启时会以较大概率选择异常样本在局部信息图中对应的节点。(2)基于邻域的异常检测模型的检测结果严重依赖于邻域参数的选择。此外,不同模型只能使用特定的临近度度量来计算样本之间的相似或者距离关系,这使得相应的模型在面对不同类型的数据集时缺乏灵活性。本论文对基于临近度图模型为样本所分配的评分进行分析,发现不同类型的样本在使用不同临近度图时获取的评分呈现出不同的变化模式。基于评分的变化模式构造了一种称为异常模式评分(APS)的检测模型。该模型无需参数调优即可获得较佳的性能表现。另一方面,在对不同类型数据集中样本间关系进行刻画时,该模型可以自由地选择所需要的临近度度量。(3)不同来源的数据之间存在的关联和不一致关系使得传统的检测方法难以有效适应,本文采用多视图对不同来源的数据进行表示,提出了一种基于模糊聚类的一致性异常检测(FCC)算法。该算法将不同视图对应的数据融合为一个扩展的特征空间,在该空间中使用模糊聚类计算样本对于数据集中隐含的多个聚类结构的隶属度,刻画了样本在不同视图中对于各个聚类结构的隶属行为。FCC算法将不同视图中行为不一致的样本标记为异常对象。在人工和真实数据集上的实验验证了该算法的有效性。(4)FCC算法在分析多源数据中的异常对象时重点关注了样本在不同视图中行为的不一致性,而忽略了那些在所有视图中都发生严重偏离的样本。针对该问题,本文提出了基于低秩表示的混合异常检测(LRRMOD)模型。该模型首先使用数据集自身作为字典通过低秩表示学习样本之间的相互表征关系,利用该关系构造样本之间的相似度矩阵。在总体特征空间中和不同视图对应的相似度矩阵上应用亲和传播聚类获得每个样本对应的聚类代表点。将样本与聚类中心的偏离定义为其属性异常评分,而样本在不同视图上行为的不一致性定义为类别异常评分。LRRMOD同时使用属性异常评分和行为异常评分来共同确定样本的异常度,使得该模型比单纯使用不一致性定义异常度的算法具有更优的性能。通过以上研究,我们对多源数据的异常检测问题从理论上提供了新的解决思路和方法。