论文部分内容阅读
随着计算机技术的发展,数据采集渠道与特征提取器的种类日趋多样,使得同一对象可以从不同层面进行描述,从而产生多个视图形成多视图数据。然而,由于遮挡、仪器损坏等原因导致采集到的每个视图数据均不完整,形成不完全(有样本缺失的)多视图数据。因此,如何处理不完全多视图数据并从中挖掘到该类数据的共享信息,以及如何利用这类多视图数据的一致性原则以及互补原则完成多视图聚类任务,已经引起机器学习领域研究人员的广泛关注。目前,针对不完全多视图数据,已有的大多数方法都是基于非负矩阵分解(Nonnegative Matrix Factorization,NMF)求得原始不完整数据的共享表示(Common Representation),然后执行k-means聚类方法求得最终的结果。这种“两阶段”多视图聚类方法没有考虑不完全多视图数据处理与聚类的关系,即在数据处理阶段没有考虑聚类的要求,这使得现有方法的性能还可以进一步提升。此外,基于非负矩阵分解来解决缺失问题的聚类方法没有考虑由NMF学习到的基矩阵的判别能力以及系数的稀疏程度。而且,大多数现有的聚类方法均在训练模型前进行降维,无法充分利用原始数据中的判别信息。综上所述,本文提出了一种新的基于稀疏嵌入框架的不完全多视图聚类方法对不完全多视图数据进行聚类。在不需要补全数据的情况下,该方法也可以很好地处理不完整的多视图数据并获得良好的聚类性能。本文主要从不完全多视图数据以及大数据时代所带来的严重的“维数灾难”问题入手,研究如何联合稀疏表示技术(Sparse Representation,SR)和主成分分析技术(Principal Component Analysis,PCA)以提升不完全多视图聚类的性能,主要研究内容包括:1)不同于传统的补全样本方法,本文在不需要补全视图的情况下进行高性能的多视图聚类任务。将不完全多视图数据嵌入到一个低维空间中,使得降维之后数据信息损失尽可能少的情况下,学习对应不同视图的字典、稀疏表示和投影矩阵,然后利用匈牙利算法对配对样本和非配对样本进行聚类。这样的不完全视图处理策略可以得到很好的聚类效果,计算效率也大幅度提升。2)将PCA与SR相结合联合学习投影矩阵以及字典,通过约束原始空间到低维空间的投影矩阵的正交性,提高低维空间的稀疏性,并保留原始空间中的大量有用信息,为后续提高字典的判别能力提供基础。3)在字典学习阶段,对字典而非系数矩阵进行Fisher约束,这使得学习到的字典比传统方法学到的字典更具判别能力,可以更好的用来表示样本以提升聚类性能。本文在人工合成数据集,Extend Yale-B人脸数据集,MNISIT手写识别数字数据集以及Caltech101大数据集上进行实验,结果表明该方法比其他的最先进的聚类方法实现了更好的聚类性能。