论文部分内容阅读
随着多媒体技术的飞速发展,人们可获得的信息越来越多,而这些信息中既包含大量的无用信息,又存在很多的“看不见”的有用信息。因此,利用流行的机器学习和人工智能等手段,对信息进行提取、挖掘和分析显得尤为重要。聚类分析是一种无监督学习方法,它可以在没有任何先验知识的条件下,对数据集进行聚类,使得类别内样本尽可能相似,类别间样本差异尽可能大。因此,作为一种数据挖掘的重要手段,聚类分析可以揭露出样本间的从属关系,从而在模式识别、人工智能等领域有着极为重要的意义。多视图聚类分析因其利用多个不同视图特征的信息,可以更加全面地描述数据库,从而获得比单视图聚类更好的聚类性能。传统的多视图聚类算法只考虑不同视图间的一致性,而忽略了同一个视图内部不同样本在特征学习前后也应保持相同的相似程度。因此,本文将局部空间结构约束引入传统的多视图学习框架,提出了一种多视图聚类算法——MLN。但是,MLN算法是基于NMF矩阵分解的,该方法只适用于非负的特征矩阵。而现实场景中,很多数据的特征难免存在负数,因此本文又提出了基于SemiNMF矩阵分解的多视图聚类算法MLSN。无论特征数据矩阵是否存在负数,MLSN都有较好的聚类性能。在三个公开的数据库上进行实验,结果证实MLN和MLSN算法都有着较好的聚类性能。线索集聚聚类作为一种集成聚类方法,可以通过结合策略将一组不同的基聚类器进行集成,从而提高聚类的泛化能力,获得更高的聚类准确率。线索集聚聚类主要分为构建共联矩阵和对其进行凝聚型层次聚类两个步骤。然而,传统的加权线索集聚聚类方法仅考虑基聚类器的影响,或者仅考虑团簇质量的影响,而实际上二者都会影响样本间的相关性。因此,本文提出一种新的加权线索集聚聚类方法——GLWEA。该方法在构建共联矩阵时,将基聚类器质量和团簇质量都作为影响权重系数的因子,进而再使用凝聚型层次聚类得到最后聚类结果的集成聚类方法。实验结果表明了该算法的有效性。结合集成聚类的多视图聚类,可以利用集成聚类的优势来降低参数对多视图聚类的影响,从而提高聚类性能。因此,本文将两种线索集聚聚类方法LWEA算法和GLWEA算法与多视图聚类算法MLSN相结合,得到了两种多视图矩阵分解的集成聚类方法——LEMGSN和GLEMGSN。实验结果证实该算法相较于MLSN有所提高。