谱聚类算法的研究及其应用

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:coral623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类算法以谱图理论为基础,可以作为一种图论的分割方法,由于其强大的数学理论基础和广泛适用性,是目前国际上模式识别等领域的研究热点之一。谱聚类算法可以将数据集从原始空间经过高斯核导出的特征空间进行转换,转换完成后原始空间中的数据将是线性可分的,在得到的低维线性空间中,就可以使用如K均值等传统聚类方法进行聚类。但是,由于谱聚类算法聚类的结果直接依赖于相似性度量,在已有的谱聚类算法中,常采用高斯核函数作为相似性度量函数,但该度量方法表达数据的空间特性时存在缺陷,不能反映出复杂数据的空间分布特性,而且在执行算法过程中,不仅需要存储所有数据的相似关系矩阵造成时间消耗大,还需要对矩阵进行特征分解的空间开销也比较高,在大规模数据集下的应用无法得到推广。针对以上问题,本文的研究包括以下方面:首先,结合聚类一致性先验假设,将能反映数据在复杂空间中局部和全局特性的流形距离相似度作了改进,使用包含近邻点信息的鲁棒性方法作为加权参数,提出一种改进的流形距离相似性测度,改进的流形距离测度能够充分体现多尺度聚类簇的数据点对之间的相似性,对于识别各种不同的数据集,在广泛意义上具有适用性。然后,将该相似性测度用于谱聚类算法中,该算法规避了高斯核函数参数的敏感问题,而且鲁棒性的参数充分考虑近邻信息有效阻止了噪声的错误聚类,稳定性好。与使用常用的高斯核函数、流形距离等相似度度量方法的谱聚类算法对比,该算法具有很好的性能。最后,改进应用在大规模数据集的近似谱聚类算法,在分析现存近似算法的基础上,结合DBSCAN算法的思想,提出基于DBSCAN算法的近似谱聚类算法,该算法避免了噪声点敏感等问题,并且降低了时间复杂性。与其他近似算法对比,在大多数数据集上保持了较高的聚类精度。
其他文献
高精度、高集成度电路板中布线密集,强弱信号交织,在外界强电磁场干扰下容易诱发气体放电现象。前人对于气体放电现象进行了大量的研究,总结了气体放电的主要机理和规律,然而
量价关系一直都是金融学研究的重点,学者们提出了不同的假说来解释量价关系,例如序贯信息到达假说和混合分布假说。然而在不同市场的实证分析得到了两种假说验证的混合结论,
随着3D硬件的快速发展、3D游戏的普及以及3D打印技术的成熟,三维模型被广泛的传播和应用。然而,人们在享受三维模型带来的逼真视觉感受的同时,不法分子对模型的破坏操作也变
近年来我国物流行业发展迅速,各家物流企业之间竞争加剧,物流企业为了寻求新的利润增长点,拓宽业务范围,纷纷打破传统业务格局,尝试将物流与金融结合,发展物流金融,由此,物流
数据挖掘是在大数据集中通过一定的算法挖掘出对人们有用的知识和信息,数据挖掘在当今时代社会生活中应用非常的广泛。聚类分析算法是数据挖掘中最为主要的研究领域之一,聚类
不确定数据处理技术和数据挖掘技术已经在诸多的领域中得到了广泛的应用,在两者结合的一个领域中,对于不确定数据聚类算法的研究已成为当前的一个大的研究热点。由于在不确定
随着基因测序费用的降低以及精准医疗和基因深度学习等新兴技术对基因大数据的需要,目前已进入一个基因数据爆发的时代。面对如此海量的基因数据,如何存储和传输这些数据成为
Android操作系统成为市场占有率最高的终端系统,智能终端的功能也与PC越来越接近,但由于普通用户安全意识的缺失和市场监管的落后,基于Android系统的移动终端的安全检测技术
水产及畜牧业面临着各类病害频繁发生的难题,抗生素是防治养殖病害的传统方法,但抗生素会导致生物安全性与环境污染问题。抗菌肽由于其独特的抗菌机理,使细菌不易对其产生耐
当户外环境存在霾、雾或其他大颗粒微粒时,拍摄图像质量下降,图像呈现灰白色,能见度降低、噪声较高、对比度与色彩剧烈衰减、景物轮廓模糊,图像特征提取困难,最终导致图像失