论文部分内容阅读
在数据挖掘领域,聚类分析是对数据进行处理的重要工具,它在图像处理、电子商务、生物学、地理信息等领域有着广泛的应用。聚类隶属于无监督机器学习,因此,在训练样本标记信息未知的情况下,可以利用聚类算法将训练数据集划分成K个类簇。但是,大多数聚类算法都存在着一个致命的缺点:最佳聚类数Kopt无法预先确定,Kopt是聚类算法有效聚类的前提,而聚类属于无监督学习,所以,如何度量聚类算法对数据集聚类划分的结果,以及确定数据集的最佳聚类数Kopt都将具有很大难度和挑战。目前,聚类有效性指标(CVI)是解决上述问题的重要工具,本文也从不同的角度提出了两个新的CVI。针对新提出的两个CVI,本文做了如下几个方面的工作:1.针对传统的K-means算法聚类结果不稳定的问题,本文提出了基于密度参数选择初始聚类中心点的K-means算法。利用方差能够衡量数据集中样本点间的离散程度这一统计学特性,提出了新聚类有效性指标(简称:VCVI指标)。本文通过将新聚类有效性指标VCVI与空间分形几何知识相结合,对经验规则Kmax≤(?)的合理性进行了推理说明。2.将基于密度参数选择初始聚类中心点的K-means算法与新聚类有效性指标VCVI相结合,提出了基于VCVI的K值优化与确定算法。对于一些数据量规模较大的数据集,VCVI指标与一些常用的CVI相比,VCVI指标的聚类度量效果更好,并且求解最佳聚类数Kopt的效率更高。3.针对一些非球状分布,不同簇之间样本个数与密度差异较大,以及样本空间分布比较复杂的数据集,VCVI指标是无法对它们的聚类划分结果进行较好的性能度量,因此,本文又利用了最小生成树和欧式几何相关知识,提出了新的聚类有效性指标(简称:MSTI指标)。4.将Average-Linkage层次聚类算法与MSTI指标相结合,本文又提出了基于MSTI指标的Kopt值确定算法,对于一些非球状分布以及簇与簇之间样本个数与密度差异较大的数据集,与VCVI指标以及其它聚类有效性指标相比,MSTI指标具有更好的聚类划分度量性能。实验结果表明,本文提出的两个新CVI具有很好稳定性、健壮性,以及较好的聚类划分度量性能。