论文部分内容阅读
随着互联网和信息技术的兴起与高速发展,数据呈现出数据源多样化和数据量海量化的特点,如何对大规模数据进行数据挖掘并快速获得有效信息成为近期研究的焦点。本文重点研究了密度峰值聚类算法(DPC),该算法通过建立决策图并从图中快速找出聚类中心以实现对数据的分组。虽然密度峰值聚类算法在数据聚类上表现高效且实现方便,但是其自身也存在一些问题。应用DPC算法时,截断距离参数需提前设定,并且目前的设定方法依赖手动设定,不正确选择截止距离dc将导致错误选择初始聚类中心,并且DPC算法无法在后续分配过程中对其进行纠正。此外,即使设置了适当的参数,仍然难以从决策图中选择初始聚类中心,因此影响聚类质量;另外,DPC算法对高维度数据的分析处理存在一些缺陷,因为高维度数据自身的稀疏性和空间复杂性,所以算法一般采用的欧式距离无法准确且合理体现数据点之间的相似性,导致聚类效果一般。DPC算法对噪声的识别也存在一定的局限性,往往无法准确识别出数据集的噪声点。DPC算法的局限性影响了该算法的推广应用,所以对DPC算法的改进具有十分重要的意义。本文的研究成果主要体现在下列几个方面:(1)针对DPC算法易受人为干预影响和对参数设置敏感的问题,即错误的截断距离会导致初始聚类中心出现较大偏差,即使设置了正确的截断距离,仍然难以从决策图中精确选择初始聚类中心。针对该局限性,提出一种自适应聚合策略优化的密度峰值聚类算法。该算法首先基于最近K邻居来计算数据点的局部密度,然后将其与初始阈值进行比较以选取初始聚类中心,并将其余点归类到离它距离最近的初始类簇中心所在的类簇,最后提出一种新的合并策略,即通过类簇间密度可达的概念来合并初始类簇。实验结果表明,该算法在合成和UCI数据集中的表现比DPC,DBSCAN,KNNDPC和KMEANS算法要优秀,能有效提高聚类准确率和质量。(2)针对基于密度峰值的聚类算法存在参数敏感、处理非球面数据及复杂流形数据聚类效果差、噪声识别存在局限性的问题,提出了自然最近邻优化的密度峰值聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割确定聚类中心,将其余点归类到离它距离最近的初始类簇中心所在的类簇,最后提出一种类簇间相似度概念,以解决复杂流形问题。在噪声点局限性的问题上,通过自然最近邻居的特性设定阈值来解决。实验结果表明,该算法在合成和UCI数据集中的表现比DPC,DBSCAN,KNNDPC和KMEANS算法要优秀,也具有更高的鲁棒性,并且在非球面数据和复杂流形数据上也表现出很强的优越性。(3)结合论文第三章和第四章算法的优点,提出利用自然最近邻居计算局部密度,利用自适应聚合策略得到初始类簇中心并合并相似类簇的算法以解决算法的参数敏感问题。通过实验,首先基于UCI数据集验证该算法的有效性,然后将这一算法应用于学生信息分析。实验结果表明,本算法分析结果可有效指导教育部门针对学生不同的学习条件和身体基本素质,因材施教,从而达到更好的教育效果。