异常数据的自适应k近邻检测算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:luo311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的高速发展和广泛应用使人类进入了真正的大数据时代,我们每时每刻都在产生海量数据。然而由于数据来源的多样性和复杂性,收集到的数据中往往不可避免地包含有一部分异常数据,这些数据可能是噪声(会影响建模和决策,需要进行过滤),也可能是偶尔出现但不影响决策(可以忽略不考虑),还有可能是新类别的样本应特别关注(需要检测识别进行特殊处理),在不同情境下,异常数据有不同的表现形式。本文主要针对离群点和标签噪声这两种形式的异常数据展开研究,离群点是指在数据集中与大部分数据表现出不一致的数据对象,这些数据可能具有潜在价值,而离群点检测就是要寻找隐藏在数据集中的具有这种异常模式的数据对象。标签噪声是由于各种原因使数据的观测标签产生了错误,会导致分类模型复杂度增加、分类精度降低等。目前,基于近邻或者密度的异常点检测算法被广泛使用,而这些算法中都存在一个共性问题,即对近邻参数k敏感。现有的方法中,大都是人为设定参数k,且对数据集中所有的样本采用同一个k值。如果不同样本的k值能够根据数据集的分布特征进行自适应设定,将会获得更好的异常数据检测效果。本文针对此问题展开研究,具体工作如下:(1)针对无标签数据集或者单类别数据集,提出一种个性化k近邻(Personalized k-Nearest Neighbor,PKNN)的离群点检测算法。与现有方法中的近邻参数k的设定方式不同,PKNN的近邻参数k是由算法根据数据分布特征自动确定,而不需要人为指定,且不同的样本可以具有不同的近邻参数。另外,PKNN算法给出一种改进的平均距离作为离群判别准则,当数据集中密度分布不同时,也具有较好的检测效果。(2)对于二分类数据集,提出一种个性化k近邻的标签噪声过滤算法(Noise Filtering with Personalized k-Nearest Neighbor,PKNN-NF)。将正类数据和负类数据分开考虑,使标签噪声检测问题转化为两个单类别数据的离群点检测问题,k值采用与PKNN相同的设定方式。通过定义的噪声因子来衡量样本具有标签噪声的可能性将样本分为核心样本与非核心样本,非核心样本作为标签噪声候选集,然后结合候选样本的近邻标签信息,进行噪声的识别与过滤。本文针对离群点和标签噪声这两种异常数据,给出一种新的近邻参数k的自适应确定方法,在此基础上,分别提出了自适应k近邻的离群点检测算法和标签噪声过滤算法,并对算法的有效性进行了实验验证。本文取得的成果对异常数据检测的研究具有一定的意义和实际的应用价值。
其他文献
近年来,学者们在陶瓷颗粒增强金属基表层复合材料的热疲劳特性方面开展了多项研究,但由于增强颗粒与基体、复合层与基材间热物理性能存在差异导致其在激冷激热的工况下作业时
空气质量指数(AQI)是衡量区域环境空气的综合性指标,可通过计算二氧化硫、二氧化氮、一氧化碳、臭氧、可吸入颗粒物和细颗粒物六种污染因子的空气质量分指数而获得。本文选用
随着硬件计算能力特别是大规模分布式并行计算的飞速发展,机器学习领域得到了长足的发展。在训练数据足够充分的前提下,机器学习算法的超参数配置问题是其取得较好效果的关键
建坝是一种在流域和地区层面对河流及其生态系统连续体产生影响的事件,传统水库调度在实现蓄水、防洪、灌溉、发电、航运等功能的同时,造成一系列生态环境问题,如泥沙淤积、
金纳米簇、二氧化锰片是当前纳米材料领域出现的两种新型纳米材料,由于其独特的物理化学性质备受关注。然而,金纳米簇制备成本高、二氧化锰纳米片的催化活性低于天然酶等缺点
高精度的个性化三维人体是虚拟试衣、量身定制、在线服装销售以及体型健康评估与分析等诸多领域的数据基础。以往获取三维人体的主要手段有两种,其一是通过三维人体扫描来得
分子印迹聚合物(MIPs)是一种“人工抗体”,在聚合物基体中含有与印迹分子(模板分子)形状、尺寸、化学官能团相匹配并能对模板分子进行特异性识别与吸附的印迹位点。MIPs成本低廉
体育真人秀数十年的发展历程中虽然不乏波折,但始终在危机中寻求突破,在改良中实现创新。随着新媒体时代的到来,传播渠道进一步丰富,为了能够满足受众日益高涨的精神文化需求
基于模型的诊断(Model-Based Diagnosis)是人工智能领域重要的研究分支,这种诊断方式克服了传统诊断的问题,不需要借助专家的经验,不需要过多的人力消耗,诊断过程相对独立,诊
作为国家科技发展战略的重要组成部分,新材料技术列为21世纪重点发展的高新技术之一,有机高分子及其复合材料是新材料领域内的重要组成部分,随着高科技行业的飞速发展使得其