论文部分内容阅读
近年来,互联网的高速发展和广泛应用使人类进入了真正的大数据时代,我们每时每刻都在产生海量数据。然而由于数据来源的多样性和复杂性,收集到的数据中往往不可避免地包含有一部分异常数据,这些数据可能是噪声(会影响建模和决策,需要进行过滤),也可能是偶尔出现但不影响决策(可以忽略不考虑),还有可能是新类别的样本应特别关注(需要检测识别进行特殊处理),在不同情境下,异常数据有不同的表现形式。本文主要针对离群点和标签噪声这两种形式的异常数据展开研究,离群点是指在数据集中与大部分数据表现出不一致的数据对象,这些数据可能具有潜在价值,而离群点检测就是要寻找隐藏在数据集中的具有这种异常模式的数据对象。标签噪声是由于各种原因使数据的观测标签产生了错误,会导致分类模型复杂度增加、分类精度降低等。目前,基于近邻或者密度的异常点检测算法被广泛使用,而这些算法中都存在一个共性问题,即对近邻参数k敏感。现有的方法中,大都是人为设定参数k,且对数据集中所有的样本采用同一个k值。如果不同样本的k值能够根据数据集的分布特征进行自适应设定,将会获得更好的异常数据检测效果。本文针对此问题展开研究,具体工作如下:(1)针对无标签数据集或者单类别数据集,提出一种个性化k近邻(Personalized k-Nearest Neighbor,PKNN)的离群点检测算法。与现有方法中的近邻参数k的设定方式不同,PKNN的近邻参数k是由算法根据数据分布特征自动确定,而不需要人为指定,且不同的样本可以具有不同的近邻参数。另外,PKNN算法给出一种改进的平均距离作为离群判别准则,当数据集中密度分布不同时,也具有较好的检测效果。(2)对于二分类数据集,提出一种个性化k近邻的标签噪声过滤算法(Noise Filtering with Personalized k-Nearest Neighbor,PKNN-NF)。将正类数据和负类数据分开考虑,使标签噪声检测问题转化为两个单类别数据的离群点检测问题,k值采用与PKNN相同的设定方式。通过定义的噪声因子来衡量样本具有标签噪声的可能性将样本分为核心样本与非核心样本,非核心样本作为标签噪声候选集,然后结合候选样本的近邻标签信息,进行噪声的识别与过滤。本文针对离群点和标签噪声这两种异常数据,给出一种新的近邻参数k的自适应确定方法,在此基础上,分别提出了自适应k近邻的离群点检测算法和标签噪声过滤算法,并对算法的有效性进行了实验验证。本文取得的成果对异常数据检测的研究具有一定的意义和实际的应用价值。