基于共享近邻的自适应谱聚类算法

被引量 : 0次 | 上传用户:sadiori1383
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类作为一种新颖的聚类算法,近年来在模式识别领域受到广泛关注。它不对数据的全局结构作假设,而是通过直接求图的拉普拉斯矩阵的特征分解,获得聚类判据在放松了的连续域上的全局最优解。因此,它能在任意形状的样本空间上聚类,且收敛于全局最优。由于谱聚类算法直接基于相似度矩阵对应的拉普拉斯矩阵进行求解,因此相似度定义对谱聚类算法的性能有至关重要的影响。本文首先介绍了谱聚类算法涉及的数学基础知识,并从图划分和随机游走两个角度阐述了谱聚类算法的基本原理,然后对谱聚类中常用的计算相似度的函数——高斯核函数以及现有的相似度改进算法进行了详细的分析和研究。发现当两对数据点的距离相等,数据点邻域也类似时,同一簇中的两点应该比不同簇中的两点具有更高的相似度。但无论高斯核函数还是自调节谱聚类中使用局部邻域的相似度都不能满足该聚类假设。本文在总结已有相似度优缺点的基础上,提出基于共享近邻的自适应高斯核函数。它用两点的共享近邻表征局部密度,从而获知隐含的簇结构信息,并将这一信息与自调节的高斯核函数相结合,使中间有较多数据分布的两点具有更高的相似度。新的相似度矩阵满足聚类的两条假设,具有明显的块对角性,对应的谱聚类算法称为基于共享近邻的自适应谱聚类算法。最后,在若干具有挑战性的人工数据集和4个UCI真实数据集上将该算法和经典谱聚类算法以及自适应谱聚类算法进行了对比实验。实验结果表明该方法相对于经典谱聚类算法和自适应谱聚类算法,性能有明显提高,能有效识别数据点之间的内在联系,得到正确的聚类结果。
其他文献
随着新医改的不断推进,加强基层医疗机构人才队伍建设,提高基层医疗机构服务水平是我国医疗卫生体制改革的重要措施。近年来虽然社区卫生服务在医改背景推动下有了较大发展,
为了改善粒子群优化算法的收敛速度,在布朗运动和伊藤过程的启示下,提出了一种混合布朗运动和粒子群优化算法这两种思想的改进算法。通过对布朗运动和伊藤过程进行抽象,设计了漂
<正>英语课堂教学是一个师生互动的交际过程。教师不仅通过教师话语来引导和组织学生参与课堂互动,更通过一种非言语形式(non-verbal language)——体态语言来辅助学生的理解
目的:探讨介入性宫内干预后出现绒毛膜羊膜分离的临床特点及高危因素。方法:回顾性分析中山大学附属第一医院胎儿中心2001年7月—2010年6月行介入性宫内干预术后超声检查发现绒
对产学研联盟利益的分配已有一些研究,推动产学研的深度合作,政府应该参与其中,官产学研联盟是创新主体间合作的一种更加广泛而富有深度的形式,但是对于官产学研联盟利益分配
目的探讨血清总前列腺特异抗原(T-PSA)、游离PSA与T-PSA比值(F-PSA/T-PSA)对前列腺癌的诊断价值。方法检测经病理诊断的29例前列腺癌、54例前列腺增生患者的血清T-PSA及F-PSA,并
近年来,桃果裂核已成为影响西安市桃树生产的严重问题之一。据调查,早、中、晚品种都有裂核现象,以中、晚熟品种最为严重。发病果不正常早熟,果大而轻,严重时裂口从果柄着生处开裂
研究目的:从宏观—中观—微观尺度研究山东省高校教育用地集约利用水平并提出相关对策建议,对土地供给侧结构性改革背景下制定科学合理的高校用地政策具有参考价值。研究方法
采用Rosenberg(1965)自尊量表、艾森克人格问卷简式量表中国版和积极情感消极情感量表中文修订版进行问卷调查以及实验室记忆测验,探讨了176名大学生对自我相关信息的选择性记忆