聚类分析中新聚类有效性指标的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：VIPT250

【摘要】

：

在数据挖掘领域,聚类分析是对数据进行处理的重要工具,它在图像处理、电子商务、生物学、地理信息等领域有着广泛的应用。聚类隶属于无监督机器学习,因此,在训练样本标记信息

【作者】

：

李朋

【出处】

：

安徽大学

【发表日期】

：

2004年期

【关键词】

：

聚类分析最佳聚类数Kopt 聚类有效性指标方差最小生成树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在数据挖掘领域,聚类分析是对数据进行处理的重要工具,它在图像处理、电子商务、生物学、地理信息等领域有着广泛的应用。聚类隶属于无监督机器学习,因此,在训练样本标记信息未知的情况下,可以利用聚类算法将训练数据集划分成K个类簇。但是,大多数聚类算法都存在着一个致命的缺点:最佳聚类数Kopt无法预先确定,Kopt是聚类算法有效聚类的前提,而聚类属于无监督学习,所以,如何度量聚类算法对数据集聚类划分的结果,以及确定数据集的最佳聚类数Kopt都将具有很大难度和挑战。目前,聚类有效性指标(CVI)是解决上述问题的重要工具,本文也从不同的角度提出了两个新的CVI。针对新提出的两个CVI,本文做了如下几个方面的工作:1.针对传统的K-means算法聚类结果不稳定的问题,本文提出了基于密度参数选择初始聚类中心点的K-means算法。利用方差能够衡量数据集中样本点间的离散程度这一统计学特性,提出了新聚类有效性指标(简称:VCVI指标)。本文通过将新聚类有效性指标VCVI与空间分形几何知识相结合,对经验规则Kmax≤(?)的合理性进行了推理说明。2.将基于密度参数选择初始聚类中心点的K-means算法与新聚类有效性指标VCVI相结合,提出了基于VCVI的K值优化与确定算法。对于一些数据量规模较大的数据集,VCVI指标与一些常用的CVI相比,VCVI指标的聚类度量效果更好,并且求解最佳聚类数Kopt的效率更高。3.针对一些非球状分布,不同簇之间样本个数与密度差异较大,以及样本空间分布比较复杂的数据集,VCVI指标是无法对它们的聚类划分结果进行较好的性能度量,因此,本文又利用了最小生成树和欧式几何相关知识,提出了新的聚类有效性指标(简称:MSTI指标)。4.将Average-Linkage层次聚类算法与MSTI指标相结合,本文又提出了基于MSTI指标的Kopt值确定算法,对于一些非球状分布以及簇与簇之间样本个数与密度差异较大的数据集,与VCVI指标以及其它聚类有效性指标相比,MSTI指标具有更好的聚类划分度量性能。实验结果表明,本文提出的两个新CVI具有很好稳定性、健壮性,以及较好的聚类划分度量性能。

其他文献

拓展我国房地产融资渠道的策略

房地产项目开发具有高风险、高收益、投资期限长的特点。近几年,我国房地产出现了不同程度的融资困境。为应对融资困境,积极发展房地产金融、探求多元化的融资渠道,对房地产

期刊

房地产行业融资渠道有效途径

新能源汽车是中国的机会

尽管2017年1月由于补贴退坡和农历新年等综合因素的影响，新能源汽车市场并没有迎来开门红。但似乎这并没有影响人们对全年市场将进一步快速增长的总体判断，中国汽车工业协会副

学位

助抽装置的应用对抽油泵泵效的影响分析

在有杆泵抽油过程中,影响泵效的因素很多,其中最主要的是抽油杆、油管的伸缩变形和抽油泵的间隙漏失,且以抽油杆在传递能量过程中消耗的能量为最,几乎占据光杆功率的一半,致

期刊

抽油杆助抽装置抽油泵泵效应用分析

科学技术一定要在本世纪内赶超世界先进水平

<正> 伟大的领袖和导师毛主席在一九五六年发出了伟大号召,要我们发扬革命精神,用五、六十年的时间,在经济上超过美国。毛主席说:“这是一种责任。你有那么多人,你有那么一块

期刊

世界先进水平社会主义制度毛主席“四人帮”

NLRP3/IL-1β/TGF-β1信号轴在矽肺纤维化发生发展中的作用及木犀草素的拮抗效应

目的:探讨NLRP3/IL-1β/TGF-β1信号轴在矽肺纤维化发生发展中的作用;以NLRP3/IL-1β/TGF-β1信号轴为靶点探讨木犀草素对矽肺纤维化的拮抗效应。方法:SPF级Wistar雄性大鼠,

学位

NLRP3炎症小体矽肺肺泡炎肺纤维化木犀草素白毛夏枯草

战术导弹级间线分离探讨

级间分离有点分离和线分离两类技术手段。线分离的优点很多，已日益广泛地应用于战略导弹中，并有逐步代替点分离的趋势。然而迄今为止，这种先进的技术还未应用于战术导弹中。文章

期刊

级间分离线分离技术分离机构

南京市部分居民室内PM2.5和PM1.0污染状况

目的调查居民室内PM2.5和PM1.0的污染水平和特征,为制定相关标准提供参考。方法随机选择南京市城区85户家庭,采用现场测定每户不同时段主卧室、客厅、厨房和室外PM2.5及PM1.0

期刊

空气污染室内PM2.5PM1.0污染状况

慢性脑低灌注大鼠海马CA1区神经元损伤分子机制及MSCs源性外泌体对其调控作用研究

大鼠永久性的双侧颈总动脉闭塞(bilateral occlusion of the common carotid artereis,2VO)建立的慢性脑低灌注(chronic cerebral hypoperfusion,CCH)模型是目前最为广泛应用

学位

间充质干细胞外泌体慢性脑低灌注神经调节蛋白1高迁移率族蛋白1认知障碍

现代晶圆加工过程控制关键技术研究

现代半导体制造业是所有制造业中最复杂的行业之一,其制造过程涉及的工序超过三百步,加工周期通常在两个月以上,这使得质量控制显得尤为重要。为了能够获得较高芯片制造的成

学位

统计过程控制(SPC)控制图晶圆加工片加工批加工嵌套位置效应零过多

水稻突变体oscrd1和ospsf1的基因克隆及功能分析

水稻是全球至少一半人的主要粮食来源,其产量的提高对于解决全球粮食问题具有十分重要的战略意义。而作物产量受光合作用的影响,植物叶色变异直接影响光合作用。叶色突变体作

学位

水稻叶色突变体图位克隆镁原卟啉Ⅸ单甲酯环化酶植物光合作用相关蛋白

聚类分析中新聚类有效性指标的研究

其他学术论文