自动确定类数的密度峰值聚类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:BalloonMan_Again
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2014年,《Science》上发表了一种聚类算法,被称为密度峰值聚类算法(Density Peaks Clustering,以下简称DPC),此算法尝试使用两个目标:密度和峰值,以自动确定簇的数量。它可以处理任意形状分布的数据集,拥有原理简单、效率出众、调节参数少等让科研人员青睐的优点,这使它成为了聚类分析中的热门算法。此算法首先设计了一种称为决策图的启发式方法来找出局部密度和偏移距离最大的数据点作为聚类中心,然后在用户选择了聚类中心之后,通过将数据点分配给与其最近的邻居(具有更高密度)来组成一个个簇。该过程非常简单,主要在于它的两个核心的直观假设:(1)聚类中心总是那些周围点比较密集,自己密度比它周围点的密度都大的点。(2)不同聚类中心间的距离比聚类中心与其周围点的距离更远。但是,此算法也拥有如下不足和缺点:(1)在选择截断距离d_c时,算法需要基于数据集上的经验值人工选择:即算法建议的截断距离为按此截断距离选择的数据点个数为数据点总数的2%左右。(2)算法需人工选择选择聚类中心,但没有一个通用的选择标准,所以误差较大,直接影响聚类结果。(3)在数据集规模大、维度高时,算法的聚类效果很差。针对上述缺点,本文提出了两个改进的方法,主要从以下两个方面进行了改进:1.针对缺点(1)和(2),提出一种自动确定截断距离及类中心的密度峰值聚类算法。首先提出了一种基于Gini系数可以自适应选择截断距离d_c的计算方法,Gini系数越小,数据集的稠密稀疏程度相差越大,即每一类数据在数据集的分布更加不均匀,这样的情况下更容易聚类,也就可以自动确定截断距离。然后计算每个点的局部密度和偏移距离的score函数值并画出排序图,根据score变化趋势自动确定出潜在聚类中心,最后通过聚类中心距离大于阈值d_c的方法来确定真正聚类中心。实验结果表明本章所提出的算法无论是在运行准确率还是在处理数据的鲁棒性上都有良好的效果。2.针对缺点(3),提出一种基于网格的改进密度峰值聚类算法。首先给出一种网格划分的方法并给出相邻网格和网格中心点的定义,将数据点粒度放大到了网格粒度,然后采用更加高效合理的局部密度和偏移距离的衡量方法,结合使用改进方法1中提出的自动确定截断距离和筛选聚类中心的方法对网格聚类,这样处理使得空间复杂度和时间复杂度都较DPC算法有明显的降低。通过实验验证了此算法无论在数据规模较小还是较大的数据集上都拥有很好的性能且运行速度比DPC快很多,算法的鲁棒性进一步提升,尤其是在大规模数据集上的效果,比对比的算法有更好的效果。
其他文献
国有企业是中国特色社会主义的重要物质基础和政治基础,是中国特色社会主义经济的“顶梁柱”。改革开放四十年以来,国有企业在建设中国特色社会主义事业中发挥了举足轻重的作用,然而随着社会经济的纵深发展,国有企业大而不强的弊端日益凸现,亟待进一步深化改革。习总书记多次强调“青年兴则国家兴,青年强则国家强”,作为国有企业改革发展中的生力军——青年职工,在社会变革中的职业心态较之已往的青年职工发生了很大变化,要
在如今离婚率不断增长的情形下,离婚诉讼案件层出不穷,婚前按揭房由于具有价值高、保值增值性能强大等特征,成为了离婚诉讼案件中的争议重点。在《婚姻法司法解释(三)》颁布之后,虽然对于法条规制情形下的按揭房之归属有了具体的认定方式,但是基于按揭房纠纷类型的多样性、《婚姻法》与《物权法》适用的矛盾以及双方离婚利益的不平衡等原因,尚存在很多问题没有得到解决,比如:婚后取得产权证书、父母参与出资等房屋的权属存
本文从政府购买服务公共性的基本理论出发,探讨购买过程中的公共性流失问题,并提出对策。首先,概述了政府购买服务与公共性的基本理论,指明了公共性的价值意义。其次,在明确公共性是政府购买服务的本质属性与必然诉求的基础上,明确了政府购买服务公共性流失的内涵,并分析了公共性流失在政府、社会组织与公民三个层面的渠道及去向。再次,分析公共性流失在政府规划及决策、社会组织承担及实施、公民接纳及反馈等环节的表现,并
本文从类型和内容两方面,对比了汉泰辞格的异同。以北京语言大学HSK动态作文语料库中的泰国留学生作文及广西民族大学泰国留学生作文为研究对象。利用语料库法、文献法、统计法,从初、中、高三个阶段对泰国留学生19种辞格使用情况进行考察分析。首先统计得出各辞格的正确率、正确使用相对频率。对比分析后发现:泰国留学生辞格使用种类较少,使用情况不理想,并排列出辞格习得顺序。其次本文对泰国留学生汉语中介语辞格的偏误
雕塑是一门空间艺术,本文尝试通过四个章节,循序渐进地进入和展开对“界限空间”的探讨。第一章节对古典主义时期的传统空间意识到当代雕塑的大空间意识的演变过程进行归纳和
随着全球气候变暖以及城市化的快速发展,大气降水增多,地表径流量增加,城市排水系统不能应对突发暴雨,大量的雨水无法及时排出造成城中区域发生内涝现象。城市内涝导致道路交通瘫痪,给居民出行带来不便,严重内涝时还会造成人员伤亡,因此研究城市内涝问题已经成为社会热点问题。本文以镇江主城核心区作为研究区,考虑研究区的自然地理情况和排水管网现状,以芝加哥雨型作为设计雨型,选用2a、10a、25a和50a四种重现
感应电能传输(Inductive Power Transfer,IPT)是一种基于电磁感应原理的非接触传能方式,具有安全、可靠、灵活等优点,受到相关领域学者的广泛关注和研究。目前关于IPT技术的研究已取得了丰硕成果,相关产品被推广应用于多个领域,展示了其广阔的应用前景。双向感应电能传输(Bidirectional Inductive Power Transfer,BD-IPT)技术更是在诸多特殊领
体育行业职业技能鉴定是我国人力资源开发的重要战略举措,是提高体育专业素质、发展体育市场的实际需要。通过职业技能培训与鉴定可以在近几年的时间里提升体育产业从业人员
二斑叶螨和西花蓟马是广泛分布在世界各地的害虫,两者对农业生产造成了巨大的威胁。在农业生产过程中采用化学农药对两者进行防治,由于害虫抗药性强同时化学防治也会造成植物和害虫的同时减少,常常导致农药污染和杀灭天敌等负作用,并不能得到很好的防治效果,因此利用捕食性天敌进行生物防治成为一项行之有效的措施。围绕捕食螨的田间防效实验中,不能直接研究其取食何种害虫以及对害虫捕食量的问题,本研究采用SCAR(Seq
我们先前的研究表明,酒精暴露会过度地刺激活性氧(ROS)生成,从而抑制胚胎血管生成。在本研究中,我们用鸡胚血管发育模型,探究了萝卜硫素作为一种已知的饮食中的生物活性化合物,是否可以改善酒精抑制的血管生成。利用鸡胚卵黄膜(yolk sac membrane)和绒毛尿囊膜(chorioallantoic membrane)血管发育模型,我们的实验结果表明单独施加低浓度的萝卜硫素(2.5至10μM)可以