论文部分内容阅读
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。聚类分析作为其重要的组成部分,当前,在模式识别,数据处理,图形图像以及市场分析等方面越来越受到人们的青睐。在众多研究领域当中,聚簇分析是专家学者研究的焦点。本文对聚类算法进行了深入地分析研究,指出该类算法存在着对参数敏感、不能有效地对多密度数据集聚类等问题。针对这些问题,本文利用网格熵和网格信息度的概念来自动计算出网格聚类中的密度阈值,在此基础上提出了一种有效的无参数网格聚类算法NaRic;针对传统的反向K-近邻边界点检测算法BORDER存在着时间复杂度较高、参数难以确定以及该算法不能去除孤立点影响等问题,本文利用网格中数据点方差的概念来确定聚类中的边界点,在此基础上提出了基于统计信息的边界点检测算法BPSF。针对上述提出的两种算法NaRic和BPSF,本文中都进行了较为详细的描述,给出了算法实现的具体步骤。本文使用Visual C++6.0实现了无参数网格聚类算法NaRic、共享近邻SNN算法、基于统计信息的边界点检测算法BPSF、反向K-近邻边界点检测算法BORDER算法,做了大量的对比实验,包括有效性、效率对比实验,所使用的数据集包括综合数据集和真实数据集。实验结果表明,无参数网格聚类算法在不需要任何输入参数的情况下可以处理任意形状、任意大小的聚类,并且可以对多密度数据集进行正确聚类,和传统的多密度聚类算法SNN相比,该算法具有较高的聚类精度和效率;基于统计信息的边界点检测算法BPSF可以去除噪声点的影响,较为准确的找到聚类的边界,算法的时间复杂度小于传统的边界点检测算法BORDER。总之,无参数网格聚类算法在一定程度上解决了网格聚类算法对参数敏感的问题,而基于统计信息的边界点检测算法也能够准确、有效的发现聚类的边界点,并且在执行效率、检测效果等方面有一定的优越性。