数据挖掘中的聚类算法的研究及分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qq793053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和电子商务的急速发展,需要处理的数据量也是急速增长。面对海量的数据,数据挖掘技术应运而生,它涉及了机器学习、模式识别、统计学、人工智能等多门学科。数据挖掘技术实现难度大,技术含量高,更注重于从海量数据中发现隐含的知识的可伸缩性。聚类分析是数据挖掘领域中一种重要的方法,而模糊C均值(FCM)聚类算法是聚类分析中应用最为广泛的算法,面对当今海量的待聚类数据,FCM聚类算法的缺点尤为突出,主要表现为:数据量大时FCM算法收敛速度较慢;聚类数目需要事先人为给定,具有很大的不确定性;对噪声数据敏感,抗噪性能差。针对FCM算法的以上缺点,本文就FCM聚类算法及改进算法进行了分析及结合。基于模糊熵约束的FCM聚类算法,进一步分析了加入相对熵约束的FCM聚类算法,该方法将相对熵作为调节函数加入目标函数中,最大化不同类之间的相异度,而且具有对噪声数据点分配低隶属度值的能力,从而有效的抑制了噪声数据对聚类中心的影响,并且加入相对熵系数θ,用来调节相对熵的重要程度,以适应不同用户的需求。同时,在此算法中加入了魏立梅提出的对手抑制式方法,加快了算法的收敛速度;此外,针对聚类数目需要事先人为给定的缺点,加入聚类有效性函数,实现了聚类数目的自动优选。最后,将结合后的算法在MATLAB平台上进行仿真实现,数据集使用简单数据集、二维数据集、三维数据集、IRIS数据集,并与传统的FCM算法、基于模糊熵的FCM算法进行比较。实验证明:结合后的FCM算法不但在抗噪性能方面有很大的提高,而且收敛速度得到了提升,并能自动确定出最佳的聚类数目。传统FCM聚类算法的时间复杂度为O(nc2p),结合后的FCM算法的时间复杂度为O(nc3p)+O(2nc2log(nc))+O(nc)。复杂度有所增加,但对于相对熵约束的FCM算法中的Lambert-W函数W0(.),在MATLAB中可直接调用,计算较为简单。
其他文献
文章以现有的教学模式改革研究为依据,以中央电大实施的基于网络的"高级英语写作"课程考核改革实践为基础,重点探讨了开放教育英语专业"高级英语写作"课程的教学模式,具体提出了
新时期医院的专业性学科研究是推动我国医学发展的强劲推动力和重要保障,也是一个医院得以长远发展的重要基石。随着国家逐渐认识到科学研究的重要意义,医院也加强了对科研项
如今移动互联网的使用者和其收入范围不断发展壮大,移动互联网企业对于资本运营的把握以及资本使用的成效对其长久发展起着举足轻重的作用,因此,对移动互联网企业进行资本运营模
随着勘探技术的不断进步,高密度、宽方位、多波多分量等新技术的应用不断扩大,带动了地震数据采集量爆炸般的增长,单一工区地震采集的数据量已由经典的百GB级达到了数TB级甚
<正>据NASA网站近期报道,SpaceX公司的"龙"太空飞船成功执行了第三次商业轨道运输服务,为国际空间站运送了2500千克补给货物,包括多种科学仪器。在此次发射任务中,SpaceX首次