论文部分内容阅读
谱聚类算法以谱图理论为基础,可以作为一种图论的分割方法,由于其强大的数学理论基础和广泛适用性,是目前国际上模式识别等领域的研究热点之一。谱聚类算法可以将数据集从原始空间经过高斯核导出的特征空间进行转换,转换完成后原始空间中的数据将是线性可分的,在得到的低维线性空间中,就可以使用如K均值等传统聚类方法进行聚类。但是,由于谱聚类算法聚类的结果直接依赖于相似性度量,在已有的谱聚类算法中,常采用高斯核函数作为相似性度量函数,但该度量方法表达数据的空间特性时存在缺陷,不能反映出复杂数据的空间分布特性,而且在执行算法过程中,不仅需要存储所有数据的相似关系矩阵造成时间消耗大,还需要对矩阵进行特征分解的空间开销也比较高,在大规模数据集下的应用无法得到推广。针对以上问题,本文的研究包括以下方面:首先,结合聚类一致性先验假设,将能反映数据在复杂空间中局部和全局特性的流形距离相似度作了改进,使用包含近邻点信息的鲁棒性方法作为加权参数,提出一种改进的流形距离相似性测度,改进的流形距离测度能够充分体现多尺度聚类簇的数据点对之间的相似性,对于识别各种不同的数据集,在广泛意义上具有适用性。然后,将该相似性测度用于谱聚类算法中,该算法规避了高斯核函数参数的敏感问题,而且鲁棒性的参数充分考虑近邻信息有效阻止了噪声的错误聚类,稳定性好。与使用常用的高斯核函数、流形距离等相似度度量方法的谱聚类算法对比,该算法具有很好的性能。最后,改进应用在大规模数据集的近似谱聚类算法,在分析现存近似算法的基础上,结合DBSCAN算法的思想,提出基于DBSCAN算法的近似谱聚类算法,该算法避免了噪声点敏感等问题,并且降低了时间复杂性。与其他近似算法对比,在大多数数据集上保持了较高的聚类精度。