K-均值聚类算法初始中心选取相关问题的研究

被引量 : 0次 | 上传用户:wwwdps1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从数据库中发现隐含的、新颖的、对决策有潜在价值的知识和规则的过程,已经在许多领域得到了广泛的应用。聚类分析是数据挖掘领域最为重要的技术之一,至今已在理论和方法上取得了丰硕的研究成果。聚类已经被广泛的研究了许多年,主要集中在基于距离的聚类算法上,其中以K-均值聚类算法最为经典。K-均值算法是一种典型的基于划分的方法,该算法的优点是思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。但是该算法存在如下缺点:聚类个数K需要预先给定;算法对初值敏感;算法易陷入局部极小,并且一般只能发现球状簇。本文主要深入研究和分析了聚类算法中的经典K-均值聚类算法,总结出其优点和不足。重点分析了K-均值聚类算法对初始值的依赖性,并用大量的实验验证了随机选取初始值对聚类结果的影响性。针对K-均值算法对初始中心值选取的依赖性,提出了两种新的初始中心值选取方法。主要研究内容和工作成果如下:1.基于Huffman树构造的思想,提出了一种新的选取K-均值聚类算法初始中心点方法,改善K-均值聚类算法随机选取初始中心点而导致的聚类结果不稳定,容易陷入局部最优而非全局最优的不良结果。2.采用最大距离法来选取K-均值聚类算法初始中心点,使得选出的中心点能在一定程度上代表不同的簇,提高了划分初始数据集的效率,克服了K-均值聚类算法中随机选取的初始中心点很大可能过于邻近,多个初始中心被选择在同一簇中,而小簇中没有聚类种子的不好情况。另外引入特征加权的方法,区别不同特征对聚类的贡献不同,来提高聚类的有效性。
其他文献
现代制造业向高精度和高效率方向发展,对数控机床的性能提出了越来越高的要求。数控机床根据NC程序进行加工,程序中的工艺参数(如主轴转速、切削深度、进给速度等)通常依据机
随着我国历史保护建筑研究的不断完善和发展,中国近代教会学校历史建筑作为一种文化遗产开始受到部分学者的关注和重视。但对此类建筑的研究和资料仍然相对匮乏。某些定论包
如何在公司法中规定债券持有人的保护制度一直是各国公司法十分关注的问题,因为它不仅仅关系到公司债券持有人的利益问题,而且涉及到整个社会市场交易秩序和市场信用的问题。
SWOT分析法是一种将企业外部环境和内部条件结合起来进行综合分析,辨识市场机会与威胁,分析自身实力,进而制定企业最佳战略的一种分析方法。本文阐述了市场经济条件下企业计
论文在生活方式这样一个背景下考察视觉传达设计,以生活方式为观察角度和研究方法,归纳、分析20世纪初开始到当代视觉传达设计发展历程,同时注意到视觉传达设计的能动性作用,
中小企业作为一个整体,在各国的经济发展中都做出了突出贡献。在经济日益全球化的今天,各国也越来越重视中小企业的作用。虽然我国中小企业对国家的经济发展也起到了重大的推
<正>作为历史悠久的文明古国,丰富的民族传统节日是中国文化不可缺少的一个重要组成部分。清明节、端午节、中秋节等中华民族的传统节日被列入国家法定假日,一方面增加了更多
[目的]探讨心理治疗对局限性神经性皮炎的辅助治疗作用。[方法]60例局限性神经性皮炎患者分成治疗组和对照组,两组患者均外涂糠酸莫米松软膏,治疗组同时进行心理治疗,治疗3周
把合作学习引入幼儿创新意识和创造力的培养,是对传统教学组织形式的一种突破和补充,已经被我们广大幼儿教师越来越广泛地运用于以孩子发展为本的教学活动之中,这也是课改所
通过分析轨道交通PIS车地无线通信业务需求,研究目前主流的5种无线传输系统的技术特点及有效带宽,从而比选出合适PIS系统的技术方案。