聚类分析中新聚类有效性指标的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:VIPT250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域,聚类分析是对数据进行处理的重要工具,它在图像处理、电子商务、生物学、地理信息等领域有着广泛的应用。聚类隶属于无监督机器学习,因此,在训练样本标记信息未知的情况下,可以利用聚类算法将训练数据集划分成K个类簇。但是,大多数聚类算法都存在着一个致命的缺点:最佳聚类数Kopt无法预先确定,Kopt是聚类算法有效聚类的前提,而聚类属于无监督学习,所以,如何度量聚类算法对数据集聚类划分的结果,以及确定数据集的最佳聚类数Kopt都将具有很大难度和挑战。目前,聚类有效性指标(CVI)是解决上述问题的重要工具,本文也从不同的角度提出了两个新的CVI。针对新提出的两个CVI,本文做了如下几个方面的工作:1.针对传统的K-means算法聚类结果不稳定的问题,本文提出了基于密度参数选择初始聚类中心点的K-means算法。利用方差能够衡量数据集中样本点间的离散程度这一统计学特性,提出了新聚类有效性指标(简称:VCVI指标)。本文通过将新聚类有效性指标VCVI与空间分形几何知识相结合,对经验规则Kmax≤(?)的合理性进行了推理说明。2.将基于密度参数选择初始聚类中心点的K-means算法与新聚类有效性指标VCVI相结合,提出了基于VCVI的K值优化与确定算法。对于一些数据量规模较大的数据集,VCVI指标与一些常用的CVI相比,VCVI指标的聚类度量效果更好,并且求解最佳聚类数Kopt的效率更高。3.针对一些非球状分布,不同簇之间样本个数与密度差异较大,以及样本空间分布比较复杂的数据集,VCVI指标是无法对它们的聚类划分结果进行较好的性能度量,因此,本文又利用了最小生成树和欧式几何相关知识,提出了新的聚类有效性指标(简称:MSTI指标)。4.将Average-Linkage层次聚类算法与MSTI指标相结合,本文又提出了基于MSTI指标的Kopt值确定算法,对于一些非球状分布以及簇与簇之间样本个数与密度差异较大的数据集,与VCVI指标以及其它聚类有效性指标相比,MSTI指标具有更好的聚类划分度量性能。实验结果表明,本文提出的两个新CVI具有很好稳定性、健壮性,以及较好的聚类划分度量性能。
其他文献
房地产项目开发具有高风险、高收益、投资期限长的特点。近几年,我国房地产出现了不同程度的融资困境。为应对融资困境,积极发展房地产金融、探求多元化的融资渠道,对房地产
尽管2017年1月由于补贴退坡和农历新年等综合因素的影响,新能源汽车市场并没有迎来开门红。但似乎这并没有影响人们对全年市场将进一步快速增长的总体判断,中国汽车工业协会副
学位
在有杆泵抽油过程中,影响泵效的因素很多,其中最主要的是抽油杆、油管的伸缩变形和抽油泵的间隙漏失,且以抽油杆在传递能量过程中消耗的能量为最,几乎占据光杆功率的一半,致
<正> 伟大的领袖和导师毛主席在一九五六年发出了伟大号召,要我们发扬革命精神,用五、六十年的时间,在经济上超过美国。毛主席说:“这是一种责任。你有那么多人,你有那么一块
目的:探讨NLRP3/IL-1β/TGF-β1信号轴在矽肺纤维化发生发展中的作用;以NLRP3/IL-1β/TGF-β1信号轴为靶点探讨木犀草素对矽肺纤维化的拮抗效应。方法:SPF级Wistar雄性大鼠,
级间分离有点分离和线分离两类技术手段。线分离的优点很多,已日益广泛地应用于战略导弹中,并有逐步代替点分离的趋势。然而迄今为止,这种先进的技术还未应用于战术导弹中。文章
目的调查居民室内PM2.5和PM1.0的污染水平和特征,为制定相关标准提供参考。方法随机选择南京市城区85户家庭,采用现场测定每户不同时段主卧室、客厅、厨房和室外PM2.5及PM1.0
大鼠永久性的双侧颈总动脉闭塞(bilateral occlusion of the common carotid artereis,2VO)建立的慢性脑低灌注(chronic cerebral hypoperfusion,CCH)模型是目前最为广泛应用
现代半导体制造业是所有制造业中最复杂的行业之一,其制造过程涉及的工序超过三百步,加工周期通常在两个月以上,这使得质量控制显得尤为重要。为了能够获得较高芯片制造的成
水稻是全球至少一半人的主要粮食来源,其产量的提高对于解决全球粮食问题具有十分重要的战略意义。而作物产量受光合作用的影响,植物叶色变异直接影响光合作用。叶色突变体作