基于簇合并技术的密度峰值聚类算法研究

来源 :长沙理工大学 | 被引量 : 0次 | 上传用户:xb08888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法,作为机器学习的重要技术,在先验参数不足时,仍依据样本间的相似度或距离将数据集划分为多个类别,因此被广泛应用于图像分割、生物信息、模式识别、信息检索、数据挖掘等领域。密度峰值聚类算法,基于簇中心具有较大局部密度且相互远离的假设,通过给定的合适阈值(截断距离),绘制决策图并从中高效地选取合适的簇中心,且具有参数少、无迭代、边界无噪声等优点。但该算法未提供可靠的阈值选取方法与自动选取各簇中心策略。为克服上述缺陷,本文进行了相关研究,其主要工作与创新如下:1.为密度峰值聚类算法提出一种自动选取中心策略。该策略将原算法中离散、可数的截断距离取值区间定义为连续区间,利用残差分析法选取截断距离区间内的多组簇中心,统计各组簇中心数量,在簇的目标数量已知时,从多组簇中心中选取中心数与目标数一致的簇中心组合。本文在公共数据集中测试了该自动选取中心策略,并对比了密度峰值聚类算法的新近优化算法,以及一些著名的聚类算法。实验结果表明,该策略准确、自动地选取各簇中心。2.提出叶节点密度峰值聚类算法。该算法是一种基于簇边界合并技术的自动密度峰值聚类算法,以树结构存储各簇,利用叶节点查找有邻簇边界与无邻簇边界,并通过对比相邻簇边界样本密度,将被误分的子簇合并,利用本文提出的自动迭代策略使簇数量逐渐接近真实值,从而确定合适的截断距离。本文利用一些公共数据集,测试了叶节点密度峰值聚类算法、密度峰值聚类算法及其新近优化算法、以及一些著名聚类算法的性能。实验结果表明,该算法自动确定合适的截断距离与簇中心,具有较强的自适应能力。
其他文献
随着光电子技术的迅速发展,传统的无源干扰材料因功能单一、受环境影响大、易被导引头识别等因素,已不能满足现代战争的需求。研制新型干扰材料是目前无源干扰技术的主要发展
蜜蜂是一种真社会性昆虫,拥有一套完善、精细的语言通讯系统,是群体与个体能够正常生长、发育与繁衍的重要保证。蜂王上颚腺信息素是蜂群中一种重要信息素,具有重要生物学功
进入十三五规划以来,我国地铁项目的批准建设进入“白热化”阶段。截至2018年底,我国内地拥有地铁轨道交通的城市33个,开通地铁线路达150多条,运营里程总计4500公里,位居世界第一[1]。2019年9月,国务院颁布《交通强国建设纲要》,要求未来持续推进我国地铁建设,形成“都市区一小时通勤”交通圈[2]。我国地铁起步晚、发展快,目前已成为世界上地铁建设里程最长、建设城市最多、建设速度最快的国家,地
水,被誉为生命之源,把握着地球上的生命脉动。在日常生活与工业生产实践中,水以体相水的形式普遍存在,同时又都受制于所处的环境,继而形成受限程度不一的受限水。近年来,随着
中国特色社会主义进入新时代,“意识形态领域斗争依然复杂,国家安全面临新情况”,互联网也逐渐成为意识形态斗争的主战场。能否打赢网络意识形态攻坚战,直接关系到我国的网络安全、意识形态安全和国家安全。因此,本文在理清新时代网络意识形态安全的内涵和外延、基本要素和特征的基础上,考察网络意识形态安全面临的诸多挑战,并探讨新时代网络意识形态安全治理的策略。网络意识形态安全是国家主流意识形态凭借其强大的影响力、
内燃机作为重要的动力装置,已经广泛应用于工业、农业、船舶、交通运输等各个领域,但随着日益严格的排放法规以及更高燃油经济性需求,需要不断提高发动机的热效率,进而需对缸
随着生物信息学的发展和科学研究的深入,越来越多的证据表明长链非编码RNA(lncRNA)参与多种生命进程的调控,它在先天性免疫和获得性免疫中的作用尤其显著。然而,现有的研究对
目的本课题通过研究、分析听力水平与空腹血糖的关系及听力损失影响因素,探究空腹血糖与工龄、性别等之间对噪声性听力损失的作用关系,从而为进一步降低噪声性听力损失的发生,及干预措施的制定提供理论依据。方法选取2018年11月-2019年5月安徽某地汽车制造企业从事噪声作业的工人为研究对象,采用病例对照的研究设计。对纯音听力检查结果按GB/T7582进行年龄和性别修正。将听力检测结果判定为听力损失的人员纳
目的:比较正常血糖、糖耐量异常、糖尿病三种定义的不同血糖状态下人胰岛细胞上GLP-1R的表达差异,分析临床常见因素对GLP-1R表达的影响,以期更好地指导临床应用GLP-1类似物治
目前我国在正在经历的消费升级为企业带来机遇的同时也带来了前所未有的挑战。消费者的消费结构和逻辑的变化使得产业内出现超额利润和市场机遇,为企业进入市场提供了很好的