论文部分内容阅读
聚类分析是一种重要的无导师数据挖掘方法,被广泛应用于多个领域,其基本思想是根据数据之间的相似性将数据归类,即“物以类聚”。经典的硬划分和模糊划分K-Means算法能够快速有效形成聚类,但只能处理数字类型的数据集。K-Modes和K-Prototypes算法扩展了K-Means算法,提出一种新的基于频率的聚类中心更新方式,将出现频率最高的可分类属性值作为聚类中心,能够快速处理可分类和混合类型数据。然而,基于频率的更新方式只考虑了出现频率最高的属性值,没有考虑出现频率较低的属性值,这就影响了聚类结果的准确性。
文章提出了新的处理可分类和混合类型数据的聚类算法——硬划分和模糊划分K-Centers。算法基于K-Means算法,利用一种新的聚类中心更新和距离衡量方式,考虑不同出现频率的可分类属性值对聚类中心的影响,将K-Means算法扩展到可分类和混合类型数据。理论证明说明算法能够有效处理可分类和混合类型数据,而其计算复杂度为较小,能够快速形成聚类。实际数据实验说明采用适当的模糊度算法能够产生更为准确和稳定的聚类,结果比较表明K-Centers算法能够形成比K-Modes和K-Prototypes算法更为准确有效的聚类。可扩展性实验表明算法的运行时间和数据集大小存在比较明显的线性关系。在硬划分K-Centers的基础上提出一些改进方法,进一步解决不能有效处理异常数据点、聚类结果不稳定已经需要指定聚类数目K等不足。进一步地,从过程及思路角度描述了一个利用K-Centers算法并结合其他分析工具实际分析课程评估数据的实际应用案例。
总而言之,硬划分和模糊划分K-Centers聚类算法能够快速、准确、有效地处理大型可分类和混合类型数据集,同时保持良好可扩展性。