论文部分内容阅读
聚类是将数据样本划分成不同的类,使得在同一类内的数据对象尽可能相似,不同类之间的数据对象相似性尽可能小,它属于无监督的机器学习方法。聚类分析技术在数据挖掘、模式识别、统计等诸多领域有着广泛的应用前景,一直是机器学习领域的一个研究热点。针对特定数据,如何选择合适的聚类算法一直是研究的重点。聚类融合是对已产生的聚类结果,通过共识函数设计进行融合,以达到最大化已有聚类结果共享信息的目的,从而得到比单一聚类算法更加准确和稳定的挖掘结果。本文将聚类融合算法思想与分形数据挖掘技术相结合,提出了基于分形维数的聚类融合算法。在大数据的环境下,将上述算法扩展到云计算环境下实现。传统的聚类融合算法在第一步产生聚类成员之后,将所有的聚类成员参与融合,这样使得一些劣质的聚类结果参与了后面的融合,干扰了融合的准确性,降低了最终聚类结果的质量。在监督学习中,选择分类融合方法会得到更好的结果,从“选择分类融合”中获得启发,将选择性融合思想引入到聚类融合中,产生了选择性聚类融合算法(Clustering Ensemble Selection)。近几年的研究表明,选择性聚类融合方法能很好的提高聚类算法的鲁棒性等性能。本文在第一步聚类成员产生阶段引入分形数据挖掘技术,并将分形维数与投影聚类算法结合,提出了基于分形维数的选择性聚类融合算法,以提高聚类成员的准确性。本文的具体研究内容包括:(1)针对传统的K-means聚类算法适于发现球形数据集聚类,提出了一种基于分形维数的聚类融合算法,它将融合思想与单一分形聚类相结合,较之单一的分形聚类算法,可以提高聚类结果的准确性,可以发现任意形状且距离非邻近的聚类。(2)传统的聚类算法对于处理海量和高维数据面临着很多问题。本文研究了在云计算环境下,利用集群系统的并行计算能力,实现海量数据的聚类问题。为了提高聚类结果的准确性和稳定性,采用聚类融合的思想,利用分形聚类数据挖掘算法,可以实现任意形状的海量数据集聚类。(3)针对传统聚类融合算法不能消除劣质聚类成员的干扰,及聚类准确性不高等问题,提出了一种基于分形维数的选择性聚类融合算法。该算法通过基于分形维数的聚类算法实现增量式聚类,能够发现任意形状的聚类;再通过基于互信息计算权值的选择策略,选取部分优质聚类成员利用加权共协矩阵实现融合,获得最终的聚类结果。通过实验证实,与传统聚类融合算法相比,该算法提高了聚类质量,具有较好的扩展性。(4)针对高维数据聚类,提出了一种基于分形维数和投影的选择性聚类融合算法。该算法首先计算数据集的分形维数作为本质维数,利用投影聚类算法实现数据集的降维、聚类;进而根据选择出的最优参照成员及设计的选择策略选择部分优质的聚类成员;最后利用加权共协矩阵实现融合,获得最终聚类结果。通过在UCI数据集上的对比实验来验证该文算法对于处理高维数据聚类问题的有效性;相比于其它聚类算法,聚类结果的准确性得到提高。(5)根据以上的研究内容,结合项目需要,将选择性聚类融合算法应用到气象数据中,通过对气象数据挖掘,根据聚类结果进行气候区划,将我国进行温度带划分,共分为8个温度带,与其他研究学者的划分工作大体一致。