聚类融合算法的实验评价方法

来源 :广东工业大学 | 被引量 : 2次 | 上传用户:illjyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据分析中,聚类被认为是有效的工具之一。近二十年,大量优秀的聚类算法被提出,并已经被广泛地应用于数据挖掘,模式识别,机器学习,信息检索,图像分析,生物信息学等领域。不同的聚类算法在不同的领域具有各自的优势。然而,没有任何一种聚类算法能适用于所有情况。聚类融合算法被认为是一种集取各种聚类算法所长的算法,它通过融合基聚类算法的决策,得出各基聚类算法所不能得到的决策,能够更全面地反映数据集的内部结构。聚类融合算法是聚类领域的一个研究热点,当前许多地聚类融合算法被提出。然而,除了研究优良的聚类融合算法,如何评价聚类的质量也被认为是难题之一。根据有无基准可用,聚类的质量评价方法分为内在评价方法和外在评价方法。内在评价方法不使用基准,它根据聚类的定义,考察数据内部结构情况。内在评价方法一般需要使用者定义数据之间的距离度量,而使用者一般缺乏这方面的知识。外在评价方法使用基准,它考察聚类结果和基准的相似程度。传统的外在评价方法使用专家评价的基准作为参照。但是实际上,这种基准不但昂贵,而且常常不容易得到。本文提出一种不依赖专家评价基准的外在评价方法。它从聚类基准的模糊性出发,认为专家评价的基准只是所有不同类型的基准之一,基准可以基于所有参与评价的聚类融合算法的。因此,一种新颖的基于实验的聚类融合算法评价方法被提出,其参照基准是基于所有聚类融合算法折衷所得出来的。基于这个方法的设计框架,实验部分使用了Single Linkage Clustering(SLC)算法,Iterative Voting Clustering(IVC)算法和An Algebraic Approach to Clustering Ensemble(AA)算法,在2个仿真和3个UCI数据集上,分别对三组算法,SLC算法和IVC算法,SLC算法和AA算法,IVC算法和AA算法进了评价对比,并将结果和传统使用专家评价的基准外在方法进了比较。当传统外在评价方法认为当参与评价的算法是强聚类融合算法时,该评价方法结果与传统方法的评价结果一致。由于本文的方法无需使用专家评价的基准,因此有着广泛的应用前景。
其他文献
人们从仿生学的机理中受到启发,提出许多解决复杂优化问题的新方法,称为元启发式(Metahueristic)算法,如进化策略、神经网络、模拟退火、禁忌搜索算法等。蚁群算法(Ant Colony A
当今的社会网络,己不再是狭义上社会学研究的内容,转而成为了集尖端的科研价值与巨大的商业潜质于一体的火热研究课题,吸引着愈来愈多各领域的研究人员的关注。随着时代的发展,互
本文通过实地考察、实况录像、文献资料等研究方法,以校园足球啦啦操参赛队伍与参赛单位存在的问题为切入点,深入剖析当前校园足球啦啦操参赛队伍与单位所存在的比赛内容单一
再生功率循环变频交流调速实验系统是一种新型交流调速实验系统,与传统交流调速实验系统相比,它在系统结构上有了重大改进,将常规的同轴电动机-发电机组结构改成了同轴电动机组
纸币清分机是近几年来发展迅速的一种集图像识别理论、电子学、机械理论、光学等多学科交织的高科技金融设备,它的主要功能是识别纸币的面值和面向。本文基于数字图像处理、模
本文通过对安顺学院大学生早锻炼现状进行的调查分析,结果表明:部分学生对早锻炼有正确的认识并积极参与,兴趣爱好,锻炼身体,健美减肥是早锻炼的主要目的 ;早锻炼的项目仍是
本文主要工作是反应堆的故障诊断和容错控制技术研究,依据所建立的反应堆数学模型并利用所研究的故障诊断和容错控制方法在Visual C++和Matlib开发平台上进行了仿真研究。小型