混合类型数据的K-Centers聚类算法

来源 :复旦大学 | 被引量 : 0次 | 上传用户：leolee19820604

【摘要】

：

聚类分析是一种重要的无导师数据挖掘方法，被广泛应用于多个领域，其基本思想是根据数据之间的相似性将数据归类，即“物以类聚”。经典的硬划分和模糊划分K-Means算法能够快速有

【作者】

：

唐春斌

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2006年期

【关键词】

：

聚类分析 K-Centers 混合类型数据数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是一种重要的无导师数据挖掘方法，被广泛应用于多个领域，其基本思想是根据数据之间的相似性将数据归类，即“物以类聚”。经典的硬划分和模糊划分K-Means算法能够快速有效形成聚类，但只能处理数字类型的数据集。K-Modes和K-Prototypes算法扩展了K-Means算法，提出一种新的基于频率的聚类中心更新方式，将出现频率最高的可分类属性值作为聚类中心，能够快速处理可分类和混合类型数据。然而，基于频率的更新方式只考虑了出现频率最高的属性值，没有考虑出现频率较低的属性值，这就影响了聚类结果的准确性。文章提出了新的处理可分类和混合类型数据的聚类算法——硬划分和模糊划分K-Centers。算法基于K-Means算法，利用一种新的聚类中心更新和距离衡量方式，考虑不同出现频率的可分类属性值对聚类中心的影响，将K-Means算法扩展到可分类和混合类型数据。理论证明说明算法能够有效处理可分类和混合类型数据，而其计算复杂度为较小，能够快速形成聚类。实际数据实验说明采用适当的模糊度算法能够产生更为准确和稳定的聚类，结果比较表明K-Centers算法能够形成比K-Modes和K-Prototypes算法更为准确有效的聚类。可扩展性实验表明算法的运行时间和数据集大小存在比较明显的线性关系。在硬划分K-Centers的基础上提出一些改进方法，进一步解决不能有效处理异常数据点、聚类结果不稳定已经需要指定聚类数目K等不足。进一步地，从过程及思路角度描述了一个利用K-Centers算法并结合其他分析工具实际分析课程评估数据的实际应用案例。总而言之，硬划分和模糊划分K-Centers聚类算法能够快速、准确、有效地处理大型可分类和混合类型数据集，同时保持良好可扩展性。

其他文献

特殊物业价值评估理论与实践的研究

土地作为重要的生产要素之一,其价值日益显现出来。尤其是有偿、有限期使用的土地使用制度改革和住房商品化的住房制度改革,对土地市场化的培育、发展起了巨大的推动作用。使

学位

特殊物业估价高压线土地

浅谈如何培养学生的创新精神和实践能力

期刊

初中美术教学中培养学生审美能力的有效途径研究

期刊

基于业务流程执行语言的医疗信息系统集成研究

随着国民经济的快速增长，人们对医疗服务质量的要求日益增长。医疗信息化成为了各个医疗院所、机构和厂商所关注的核心问题。在医疗信息化过程中，出现了各种面向特殊应用的信息

学位