论文部分内容阅读
近年来,无参数聚类算法是无监督学习领域的研究热点之一。无参数聚类算法的主要优点是在对给定数据集进行训练之前,不需要研究人员事先指定参数(例如,簇数目和初始簇中心)。在实际应用中,簇数目和初始簇中心往往是未知的,不恰当的事先指定反而会导致令人不满意的聚类结果,尤其是对于含有较多簇的复杂数据集。尽管存在一些专有的方法能对簇数目和初始簇中心进行优化,但是这些方法要么得出的聚类结果不稳定,要么计算复杂度高。因此,研究一种复杂度在可接受范围内且能自动识别簇数目和簇中心的无参数聚类算法对于学术界和工业界具有一定的理论研究意义和实际应用价值。I-nice(Identify the number of clusters and initial cluster centers)是目前一种最新的无参数聚类算法,由深圳大学黄哲学教授研究团队于2018年提出。该算法通过模拟人类观察山峰的行为,即用观测点去观察数据,可以自动识别簇数目和初始簇中心。它包括两个版本:基于单个观测点的I-nice算法(I-nice SO)和基于多个观测点的I-nice算法(I-nice MO)。其中,I-nice SO首先确定簇数目,然后确定簇中心;I-nice MO是I-nice SO的拓展版本,它首先确定簇中心,然后再确定簇数目。I-nice聚类算法的核心思想是使用伽玛混合模型表示观测点和原始数据点之间的距离分布,并使用k最近邻法确定高密度区域。伽玛混合模型中子模型的数量被视为数据的簇数目,高密度区域的中心被视为簇中心。I-nice聚类算法作为最新的无参数聚类算法,其创新性地引入观测点,将数据从高维度转化一维距离值,并基于期望最大化算法(Expectation-Maximization algorithm,简称EM)求解距离值对应的伽马混合模型,最终识别出原数据的簇数目和初始簇中心。尽管实验显示了I-nice的良好聚类性能,但其存在两个固有的局限:1)I-nice SO对观测点的位置敏感,不合理的观测点位置会导致观测点与原始数据点之间的距离分布不准确,进而影响最终的聚类结果;2)最近邻个数会影响I-nice MO中高密度区域的确定,且其没有提供确定选择值的方法,进而也会影响最终的聚类结果。受核密度估计方法(Kernel Density Estimation,简称KDE)和密度峰机制(Density Peaks Mechanism,简称DP)的启发,本文分别提出了基于核密度估计技术的I-nice改进算法(I-nice algorithm based on KDE,简称I-nice KDE)和基于密度峰机制的I-nice改k进算法(I-nice algorithm based on DP,简称I-nice DP)。前者使用核密度估计技术对Inice算法中GMM的最大子模型数目进行了更合理的自动设置以及使用最小平方差异机制识别更多的潜在簇中心,从而减低了观测点位置的敏感性,改进了I-nice算法的性能;后者使用密度峰策略识别GMM各个子模型对应原数据中的簇数目和簇中心以及使用距离拐点法对得到的候选簇中心进行冗余判断并去冗余,从而在大大降低了算法复杂度的同时提升了算法的泛化能力和鲁棒性。具体内容为:I-nice KDE算法使用核密度估计技术优化了算法迭代次数,不仅提高了算法的准确性,也降低了算法的复杂度;另外,使用最小平均差异准则代替k近邻法来确定最终的聚类中心,显著提高了算法的鲁棒性和有效性;I-nice DP算法使用密度峰策略来确定最佳伽马混合模型各个子模型中的候选簇中心,大大提高了算法的泛化性能和鲁棒性;另外,使用距离拐点法来自动确定距离阈值,从而有效地提高了算法的精确度。本文分别在仿真数据集和真实数据集上对提出的两种改进算法的可行性及有效性进行了实验验证,实验结果表明:I-nice KDE和I-nice DP算法在显著提升I-nice泛化性能的同时也展示出了很强的鲁棒性;同时,与已有的多种经典的聚类算法,例如DBSCAN,BIRCH等,进行实验对比,两种算法都取得了更好的泛化性与稳定性。