多视角数据聚类研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:lixuelei19890117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,数据对象往往能够在多个视角下进行特征表示,形成多视角数据。多视角数据对传统机器学习算法提出了新的挑战同时也带来了新的机遇。如何挖掘并利用多视角数据近些年引起广泛的关注。聚类分析是一种寻找数据之间内在结构的关键技术。多视角数据的聚类分析被称为多视角数据聚类(简称为多视角聚类)。多视角聚类旨在利用多视角数据构建出性能更优越的聚类算法和模型,从而输出更准确的聚类结果。针对多视角聚类问题,本文基于图模型、谱图理论、矩阵分解和并行化技术开展多视角数据聚类的研究。主要的研究工作和贡献总结如下:(1)基于自适应近邻图学习的多视角聚类目前多视角图聚类工作缺少对初始图的泛化性和图聚类模型的通用性两方面的分析研究。为了填补这两方面的研究空白,本文构建出通用的多视角图聚类框架。在所构建的框架下,完成多视角图聚类模型在利用数据初始图中的效用分析。同时,通过分析图拉普拉斯矩阵的秩与聚类簇个数的关联关系,并结合自动加权技术,提出一种基于自适应近邻图学习的视角自动加权的多视角图聚类算法。在多个真实数据集上的对比实验结果揭示了多视角图聚类模型对初始图的依赖效应,并表明了所提出的多视角图聚类算法的出色性能。(2)基于联合图学习的多视角聚类当前大多数基于图的多视角聚类算法没有充分考虑视角权重,依赖额外的聚类算法输出最终的聚类结果,并且在优化过程中固定每个视角生成的初始图去学习一致性融合图。为了解决这些问题和缺点,在自适应近邻图学习的基础上,进一步提出一种新颖的具有联合学习特性的多视角图聚类算法。所提算法能够实现自主融合所有视角学习一致性融合图;所学习的融合图可返回提升每个视角的图,并相互强化;在没有额外参数引入的情况下,结合矩阵秩的性质,得到的融合图可以直接输出聚类结果。在仿真数据集和真实数据集上的实验结果表明该方法明显优于最新的基线算法。(3)基于谱扰动的不完备多视角聚类现有多视角聚类算法通常假定每个数据对象在所有视角下均进行特征采样。在实际的数据采集过程中,一些数据对象在某些视角下是缺失的,形成不完备多视角数据。为了应对不完备多视角数据所带来的挑战,本文探究谱扰动理论,在谱扰动风险最小边界和不完备多视角聚类之间建立桥梁,提出一种扰动诱导的不完备多视角聚类方法。通过理论分析指出谱扰动边界的最小化等同于不同视角间融合结果的最大化,从而为多视角数据提供了一个可靠的融合准则。在不完备多视角数据集上的对比实验结果体现了所提出的不完备多视角聚类算法的优越性。(4)基于并行化计算的多视角聚类多视角数据的天然多视角属性使得多视角聚类算法表现出计算开销大的特点。为了突破传统多视角聚类算法计算量大的局限性,研究多视角聚类算法的分布式并行化计算。首先,探究一种称为概念分解的矩阵分解技术。基于概念分解,提出多视角概念聚类新方法。所提方法结合流形学习使得分解后的映射空间中能够保持数据的原有局部几何结构。然后,基于乘性法则,提出一种交替迭代的优化算法对目标函数进行优化计算。在优化过程中,不同视角之间的计算是相互独立的。基于此独立性条件,设计出多视角概念聚类算法的分布式并行化计算方案。多个真实数据集上的实验结果表明了所提方法的有效性和高效性。
其他文献
高速铁路是国家交通发展战略的重大需求,也是我国目前解决铁路客运紧张的重要举措,但也对高速列车的运行性能提出了更高的要求。随着我国高速铁路运营里程的不断增加以及高速
随着工业化发展和人们消费方式的转变,货物运输需求结构特征不断发生变化,同时不同运输方式之间的竞争也由成本竞争转向综合服务质量竞争,对铁路运输在时效性,综合服务性等方
背景与目的多形性胶质母细胞瘤(Glioblastoma Mutiform,GBM)是目前临床上最常见的颅内原发性中枢神经系统肿瘤,临床患者的一般预后极差,且大部分患者常表现出对化疗药的原发性
科学发展,以人为本。城市公共交通作为我国普惠性公益事业的重要载体,承担了广大居民最基本的日常出行需求,是推进城市现代化建设,提升百姓生活品质的重要体现。随着城市公交
先天性心脏病(Congenital heart disease,CHD)是全球婴儿出生缺陷中最常见的疾病,其发生率高,严重危害人类健康,给家庭和社会带来沉重的医疗和经济负担。CHD的发生机制仍尚未
在有限的测试资源条件下,对大量的软件模块进行测试评估是一项耗时且代价较大的工作。此外,传统的测试方法在软件开发过程中只采用有限的路径,其质量难以得到保障。因此,一种
研究背景:肺癌的发病率持续升高,肺癌分为非小细胞肺癌(Non-small cell lung cancer,NSCLC)和小细胞肺癌(small cell lung cancer,SCLC)两种亚型,其中NSCLC的主要类型为肺腺
本选题基于马克思主义哲学发展史的视角,试图以艾思奇哲学思想为切片,去观察唯物辩证法论战时期以来中国马克思主义哲学思想的时代变迁。唯物辩证法论战是同时期经历时间最长
移动业务与数据的爆发式增长,给未来无线通信技术的研究提出了更高的要求和挑战。如何充分利用现有的网络资源,设计具有更高频谱效率,能量效率以及成本效率的无线通信技术是
生发中心是B细胞快速增殖,体细胞高频突变(Somatic hyper-mutation,SHM)以及亲和力成熟的重要场所,其中,B细胞快速增殖和分化为抗体应答反应提供数量上的保证,而体细胞高频突