混合类型数据的K-Centers聚类算法

来源 :复旦大学 | 被引量 : 0次 | 上传用户:leolee19820604
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种重要的无导师数据挖掘方法,被广泛应用于多个领域,其基本思想是根据数据之间的相似性将数据归类,即“物以类聚”。经典的硬划分和模糊划分K-Means算法能够快速有效形成聚类,但只能处理数字类型的数据集。K-Modes和K-Prototypes算法扩展了K-Means算法,提出一种新的基于频率的聚类中心更新方式,将出现频率最高的可分类属性值作为聚类中心,能够快速处理可分类和混合类型数据。然而,基于频率的更新方式只考虑了出现频率最高的属性值,没有考虑出现频率较低的属性值,这就影响了聚类结果的准确性。 文章提出了新的处理可分类和混合类型数据的聚类算法——硬划分和模糊划分K-Centers。算法基于K-Means算法,利用一种新的聚类中心更新和距离衡量方式,考虑不同出现频率的可分类属性值对聚类中心的影响,将K-Means算法扩展到可分类和混合类型数据。理论证明说明算法能够有效处理可分类和混合类型数据,而其计算复杂度为较小,能够快速形成聚类。实际数据实验说明采用适当的模糊度算法能够产生更为准确和稳定的聚类,结果比较表明K-Centers算法能够形成比K-Modes和K-Prototypes算法更为准确有效的聚类。可扩展性实验表明算法的运行时间和数据集大小存在比较明显的线性关系。在硬划分K-Centers的基础上提出一些改进方法,进一步解决不能有效处理异常数据点、聚类结果不稳定已经需要指定聚类数目K等不足。进一步地,从过程及思路角度描述了一个利用K-Centers算法并结合其他分析工具实际分析课程评估数据的实际应用案例。 总而言之,硬划分和模糊划分K-Centers聚类算法能够快速、准确、有效地处理大型可分类和混合类型数据集,同时保持良好可扩展性。
其他文献
土地作为重要的生产要素之一,其价值日益显现出来。尤其是有偿、有限期使用的土地使用制度改革和住房商品化的住房制度改革,对土地市场化的培育、发展起了巨大的推动作用。使
期刊
期刊
随着国民经济的快速增长,人们对医疗服务质量的要求日益增长。医疗信息化成为了各个医疗院所、机构和厂商所关注的核心问题。在医疗信息化过程中,出现了各种面向特殊应用的信息
适时灌水。由于春小麦生育期短,在田管上提倡一个“早”字。因此,灌水以早灌为好,在土地肥沃、雨水较多的情况下灌水,一般头水在二叶一心时灌,二水一般在头水后7-10天灌,要求
期刊
当今,社会已经进入了网络信息时代,计算机与网络技术的飞速发展使整个应用领域的数据和信息急速增加,并且由于人类的参与,数据与信息系统中的不确定性更加显著。因此,如何从
期刊
本文从消费特征、销售量的时序特征来看、影响销售的外部环境因素和内部因素,分析了零售业中销售预测和其他行业不同的模式和特点。并基于上述分析提出,零售业预测技术应能满足
期刊