论文部分内容阅读
人们的生活包含着各式各样的数据,许多数据中都含有很重要的信息。数据挖掘就是从海量数据中提取重要信息的一种技术。作为数据挖掘中的一个重要方法,聚类分析可以有效地将这些数据按照相似度划分为不同的簇,可以便捷地发现数据对象的内在分布规律。每个簇中的数据样本都具有相似的信息,不同簇间的数据具有差异较大的信息。而随着数据越来越复杂,传统的聚类算法无法从多个角度对数据进行分析,多视图聚类算法应运而生,并成为了现阶段研究的热点。多视图数据集是由从不同角度描述同一事物的数据组成的,多视图聚类算法通过组合所有视图中的有效信息对样本进行聚类,并得到最终的聚类结果。核函数是处理线性不可分数据的一种有效方法,而多核学习(MKL)是对核函数的一种改进方法,其将现有的核函数进行线性组合得到组合核函数来代替单核函数,并通过调整每个核函数的权重,使其适用于不同类型的数据集。本文基于多核学习的思想,提出基于样本加权和多核学习的多视图聚类算法,此算法通过对不同视图对某个样本的贡献度加权,并将权重的乘积设置为1,增加贡献度较高的视图所占的比重,提高聚类质量。本文还引入了改进的加权高斯核,解决了核函数选择的问题,最终通过迭代方法获得权重值与聚类结果。通过在多个数据集上进行实验证明了该算法具有更高的聚类质量。增量聚类算法是一种处理动态增加数据的经典方法。在已有聚类结果的基础上,逐个或逐批次的处理新增数据,可以避免大量的重复计算,以提高聚类效率。本文将增量聚类应用于多视图数据集上,提出了基于核K-means的多视图增量聚类算法,该算法将数据集划分为多个数据块,并对每个数据块使用多视图核K-means聚类算法进行聚类,最终将所有块得到的聚类结果进行合并,并再次聚类得到最终的聚类结果。通过在多个数据集上实验,证明该算法在保证聚类质量的基础上,降低了聚类所需的时间。