论文部分内容阅读
在大数据时代,存储了大量可用数据进行分析以获得有用的信息,但是数据比较混乱,研究人员需要对某些数据进行分类和分区才能得到相似的数据。这一处理过程被称为聚类。聚类就是按照某个特定标准将数据归类,由此形成的数据集被称为簇或者类。聚类的目标是使不同类的数据之间差异尽可能大,而同一个类中的数据差异尽可能小。在一般情况下,需要通过某种度量方式来计算不同数据之间的相似程度,比如欧式距离,马氏距离以及余弦距离等。很多领域中都会涉及到聚类问题。从目前的种种状况可以看出,随着社会的不同领域的信息化程度的不断深入和智能化技术的大规模运用,聚类分析作为一种可靠的分析技术在在数据挖掘,机器学习等多个领域都得到了广泛的使用。各种聚类方法也被不断提出,这些方法各有优缺点并被应用于不同类型的数据。现阶段,聚类方法的对比分析是业内的一个重要研究课题,在此基础上可以明确得到其相应的聚类效果。其中,对于模糊聚类算法的研究就是一个重要的分支。以目前已有的模糊聚类算法的状况来看,由于种种因素,聚类的效果并不尽如人意。比如说,对于聚类中心的选择通常的做法是随机的方式进行初始化,这样做的结果就是聚类的结果非常不稳定,不确定。另外,在进行迭代时也没有得到有效的控制,这就直接导致在计算过程中对初始化聚类中心敏感的情况,并进一步降低了运行结果的稳定性。更为重要的是,由于数据中存在着较多的噪声点和离群点,这在很大程度上降低了聚类有效性。此外,随着信息采集能力的进步,对于一个数据源往往可以通过不同的手段,不同的视角来采集数据,这样一来就形成了所谓多视图数据。面对这种类型的数据,传统的聚类分析算法因为无法区分不同视图的差异,所以很难获得良好的处理结果。本文主要进行了以下几项工作:1)首先,梳理了模糊聚类算法漫长的发展过程,从最初的FCM到引入了核函数之后的KFCM,再然后是基于视点的模糊聚类算法V-FCM和特征加权的模糊聚类算法EWFCM,最后介绍了基于密度视点的DVPFCM。仔细的阐述了以上算法的中心思想和运行机理,对每个算法的目标函数进行了细致的剖析。指出了各个算法的特点和不足。2)为了解决以往算法中的问题,引入了”视点”的概念,可以在算法运行过程中对聚类中心进行控制,以避免噪声点的干扰,从而提高聚类的有效性。在已有算法的基础上加以改进,提出了一种由视点驱动的基于核函数的加权模糊聚类算法(Density Viewpoint-driven kernel function-based weighted fuzzy clustering algorithm,DVWEKFCM)。本算法通过寻找密度峰值来确定初始聚类中心,在计算数据点密度的过程中引入核函数,以期望更加精准的确定初始聚类中心。为了应对高维数据的聚类问题,我们使用特征权值来调节不同维度的特征属性在聚类过程中所发挥的作用的大小,尽可能降低无关的属性权值。经过大量的实验分析后可知,该算法能够较快的确定初始聚类中心,并且能够降低噪音点带来的干扰,特别是在处理具有较高维数据时表现出了明显的优越性。3)为了改善面向多视图数据的聚类效果,提出了可见和隐藏视图协同的加权核模糊聚类算法(MV-Co-KFCM)。本算法首先通过非负矩阵分解的方法从若干个不同的可见视图中提取出它们共享的隐藏信息,也被称为是共享隐藏视图。之后将可见视图和隐藏视图一起代入到目标函数中。在算法中,为了对不同的视图进行协同,为每一个视图均分配一个权重。实验表明,提出的MV-Co-KFCM算法在多视图数据集上可以取得比传统的单视图算法更为理想的效果。