基于邻域的离群检测与聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：jumty

【摘要】

：

随着网络信息技术的不断革新,数据收集变的非常便捷,对数据的分析和研究也越来越受到重视,数据挖掘已经成为众多领域的研究热点。聚类分析是数据挖掘的主要任务之一,也是数据

【作者】

：

卢建云

【出处】

：

重庆大学

【发表日期】

：

2004年期

【关键词】

：

数据挖掘聚类分析最近邻居启发规则离群检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息技术的不断革新,数据收集变的非常便捷,对数据的分析和研究也越来越受到重视,数据挖掘已经成为众多领域的研究热点。聚类分析是数据挖掘的主要任务之一,也是数据挖掘任务中研究的重点。聚类分析的目的是将具有极大相似性的数据对象划分为一组,而尽量使不相似的数据对象属于不同组。聚类分析研究的内容主要包括获得正确的聚类数目、设计数据对象之间相似性度量函数、高效的聚类算法以及聚类结果评价函数等几个方面。通常,聚类的数目会受到数据集复杂分布结构、样本重叠,噪声等因素的影响。特别地,从不同的领域、不同的角度对数据进行聚类,聚类数目往往也是不同的。在实际应用中,数据相似性度量函数会受到数据特征值缺失、类别特征、高维特征的影响。目前,面对大规模的高维数据集,开发可扩展的、高效的聚类算法具有很大的挑战性。对聚类结果进行评价要考虑聚类数目、样本大小、类簇形状、类内紧致性、类间分离性等因素。本文基于邻域技术对具有复杂结构的数据集中的离群点检测、高效的聚类算法、确定聚类数目三个方面进行了研究。归纳起来,本文主要创新成果包括:(1)提出了基于逆k最近邻的离群点检测算法。本算法结合了密度和距离方法的优势进行离群点检测。对目前存在的邻域技术,k最近邻、逆k最近邻、互k最近邻、共享k最近邻、自然最近邻做了对比分析。对数据集逆k最近邻数目的分布、稳定性进行了实验分析。提出的离群点检测算法计算每个数据对象的逆k最近邻数目,利用逆k最近邻数目来估计数据对象的邻域密度。为了进一步体现数据对象与数据主体的距离程度,对具有相同邻域密度的数据对象计算其k最近邻的距离,距离值越大,则认为更离群。实验结果表明,本文提出的离群点检测算法能够有效地发现全局和局部离群点。(2)提出了基于邻域密度划分的聚类算法。提出的聚类算法包含四个处理流程,首先对数据对象的邻域密度进行估计,根据密度阈值把数据集划分成核心数据集和非核心数据集。其次,利用最小生成树聚类算法对核心数据集进行初始聚类;再次,根据邻域的密度和紧致度对非核心数据集中的数据对象进行优先级排序;最后,采用最近邻算法按优先级依次把非核心数据集中的数据对象划分到初始聚类。实验结果表明,本文提出的基于邻域密度划分的聚类方法能够消除噪声、类间重叠的影响,能够识别不同形状的类簇。(3)提出了基于邻域重要性的启发聚类算法。本方法首先构建k邻域图,通过邻域图生成转移概率矩阵,利用随机游走模型对转移概率矩阵进行迭代计算,计算收敛后得到特征向量,该向量反映了数据对象的邻域重要性。其次,利用第k最近邻距离图谱确定重要数据对象的数目,基于重要数据对象运用启发规则找出正确的聚类数目,并且获得数据集的初始聚类。最后,将非重要数据对象划分到初始聚类。实验结果表明,邻域重要性排序算法可以发现重要的数据对象,提出的启发规则能够获得正确的聚类数目和初始聚类,聚类算法取得了较好的聚类效果。

其他文献

旧建筑改造设计的“绿色策略”

进入到二十一世纪知识经济的新型社会历程后,国内装修建筑行业的领导管理人员,在科学可持续发展理念的带动下,提出了将绿色发展战略结合应用在建筑改造设计中的发展设想。文

期刊

旧建筑改造设计绿色策略

网络时代政府信息公开制度的问题与应对

步入网络时代后,信息成为社会发展的基础性资源。政府信息公开制度应当在这个进程中扮演重要角色,最大限度开放政府信息,方便公众自由获取、使用和分享。但《政府信息公开条

期刊

网络时代政府信息公开门户网站知情权

苏联学者论列宁1921年和1923年关于合作社性质的评价

<正> 在列宁的著作中对合作社的性质在不同的时期有不同的说法。1921年列宁在《论粮食税》一文说:“合作社也是国家资本主义的一种形式”,“但在苏维埃政权下,‘合作制’资本

期刊

合作社国家资本主义社会性质新经济政策

吕梁山隧道渗水量监测分析

对吕梁山隧道渗水量进行了监测分析,并提出了相应改进建议。

期刊

吕梁山隧道渗水量监测分析

从“网红”到“网红经济”的跨越——以papi酱为例

随着互联网自媒体的迅速发展,网红大量涌现,网红经济也正式步入黄金时代。本文以papi酱为例,探究如何从"网红"向"网红经济"跨越,并为papi酱未来发展提出合理的战略布局。

期刊

网红网红经济Papi酱发展展望战略规划

现阶段我国房产税制改革的探讨

持续快速上涨的房价、火热的房地产市场,牵动着每个国民的心,也让房产税这个“小”税种受到政府及社会各界的关注。从2003年“条件具备时统一开征物业税”到2010年“逐步推进

学位

房产税改革个人所有营业性房产界定

清代保定古莲花池图概述

保定古莲花池是我国最古老的园林之一,清代曾先后多次绘制过古莲花池图,现存有四种,即乾隆二十五年《保定名胜图咏》、咸丰十一年重绘《莲池行宫十二景图》、光绪年间《古莲

期刊

保定莲池清代古莲花池图现存情况

机械式立体停车库的设计分析

机械式立体停车库属于停车设备的范畴,根据结构划分可分成平面移动、垂直循环、多层循环等样式,有效地解决了城市停车难的问题,对城市交通的发展有着重要的意义。本文简要地

期刊

机械式立体停车库设计对策

项七针配合穴位透刺为主治疗颈源性头痛的临床疗效观察

目的：观察项七针配合穴位透刺为主治疗颈源性头痛的临床疗效。方法：选取天津中医药大学附属南开中医院针灸科2015年9月至2016年9月间门诊就诊的符合纳入标准的病例共70例,分为

期刊

项七针穴位透刺颈源性头痛

HY公司人才流失问题研究

当今人才流失现象日趋严重,尤其是在我国房地产行业,特别是在中小型房地产企业。人才流失问题已经严重阻碍了企业和地区经济的发展。HY公司作为湖北省武汉市的一家中小型民营

学位

房地产人才流失绩效薪酬

基于邻域的离群检测与聚类算法研究

与本文相关的学术论文