论文部分内容阅读
网络的迅速发展和计算机存储技术的不断提升使得数据量爆炸式增长,人们要从海量数据中挖掘出有用信息越来越难。数据挖掘是指从数据库中发现未知的、对决策有潜在意义的知识和规律,已广泛应用于诸多领域。聚类分析作为数据挖掘的一个重要研究分支,是一种数据划分或分组处理的重要手段,旨在通过分析数据对象间的相似性把数据划分成有意义的簇。本文主要研究对象是K-medoids聚类算法,它是一种基于划分的方法。首先介绍了聚类分析的相关概念,然后重点对K-medoids聚类算法进行了分析。该算法不易受极端数据的影响,应用广泛。但它具有对初始中心点敏感、中心点随机选择以及聚类精确度不够高等缺点。本文主要从以下几个方面进行分析研究,并针对其缺点进行相应的改进。首先,针对传统K-medoids聚类算法对初始中心点敏感的问题,提出利用粒计算对传统K-medoids算法进行数据规约处理,获取K个有效粒子,遴选该K个粒子所对应的K个中心点作为初始中心点。数据规约算法在Iris、Wine数据集中进行测试,实验结果显示数据规约的中心点分别位于不同的簇中,从而避免了传统算法对初始中心点敏感的问题。然后,在有效数据规约前提下,为解决传统K-medoids聚类算法的收敛速度缓慢和聚类准确率不够高等缺点,提出了宽度优先搜索策略。根据对象间的相似性分别对K个粒子中的对象建立以中心点为根结点的相似对象二叉树,通过宽度优先搜索遍历二叉树迭代出最优中心点,以此来减少聚类算法的迭代次数;同时提出一种权衡簇内和簇间距离的准则函数,以此来增强算法的适应性和聚类精度。实验结果表明:新算法在UCI中Iris和wine标准数据集中测试,在有效缩短迭代次数的同时提高了算法的聚类准确率。