论文部分内容阅读
在当今大数据时代,数据对象往往能够在多个视角下进行特征表示,形成多视角数据。多视角数据对传统机器学习算法提出了新的挑战同时也带来了新的机遇。如何挖掘并利用多视角数据近些年引起广泛的关注。聚类分析是一种寻找数据之间内在结构的关键技术。多视角数据的聚类分析被称为多视角数据聚类(简称为多视角聚类)。多视角聚类旨在利用多视角数据构建出性能更优越的聚类算法和模型,从而输出更准确的聚类结果。针对多视角聚类问题,本文基于图模型、谱图理论、矩阵分解和并行化技术开展多视角数据聚类的研究。主要的研究工作和贡献总结如下:(1)基于自适应近邻图学习的多视角聚类目前多视角图聚类工作缺少对初始图的泛化性和图聚类模型的通用性两方面的分析研究。为了填补这两方面的研究空白,本文构建出通用的多视角图聚类框架。在所构建的框架下,完成多视角图聚类模型在利用数据初始图中的效用分析。同时,通过分析图拉普拉斯矩阵的秩与聚类簇个数的关联关系,并结合自动加权技术,提出一种基于自适应近邻图学习的视角自动加权的多视角图聚类算法。在多个真实数据集上的对比实验结果揭示了多视角图聚类模型对初始图的依赖效应,并表明了所提出的多视角图聚类算法的出色性能。(2)基于联合图学习的多视角聚类当前大多数基于图的多视角聚类算法没有充分考虑视角权重,依赖额外的聚类算法输出最终的聚类结果,并且在优化过程中固定每个视角生成的初始图去学习一致性融合图。为了解决这些问题和缺点,在自适应近邻图学习的基础上,进一步提出一种新颖的具有联合学习特性的多视角图聚类算法。所提算法能够实现自主融合所有视角学习一致性融合图;所学习的融合图可返回提升每个视角的图,并相互强化;在没有额外参数引入的情况下,结合矩阵秩的性质,得到的融合图可以直接输出聚类结果。在仿真数据集和真实数据集上的实验结果表明该方法明显优于最新的基线算法。(3)基于谱扰动的不完备多视角聚类现有多视角聚类算法通常假定每个数据对象在所有视角下均进行特征采样。在实际的数据采集过程中,一些数据对象在某些视角下是缺失的,形成不完备多视角数据。为了应对不完备多视角数据所带来的挑战,本文探究谱扰动理论,在谱扰动风险最小边界和不完备多视角聚类之间建立桥梁,提出一种扰动诱导的不完备多视角聚类方法。通过理论分析指出谱扰动边界的最小化等同于不同视角间融合结果的最大化,从而为多视角数据提供了一个可靠的融合准则。在不完备多视角数据集上的对比实验结果体现了所提出的不完备多视角聚类算法的优越性。(4)基于并行化计算的多视角聚类多视角数据的天然多视角属性使得多视角聚类算法表现出计算开销大的特点。为了突破传统多视角聚类算法计算量大的局限性,研究多视角聚类算法的分布式并行化计算。首先,探究一种称为概念分解的矩阵分解技术。基于概念分解,提出多视角概念聚类新方法。所提方法结合流形学习使得分解后的映射空间中能够保持数据的原有局部几何结构。然后,基于乘性法则,提出一种交替迭代的优化算法对目标函数进行优化计算。在优化过程中,不同视角之间的计算是相互独立的。基于此独立性条件,设计出多视角概念聚类算法的分布式并行化计算方案。多个真实数据集上的实验结果表明了所提方法的有效性和高效性。