多核图聚类理论及算法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:yaozhongli00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是数字化时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。研究如何从复杂数据中挖掘出有价值的信息具有重要的科学意义和应用价值。聚类作为机器学习的一个重要研究方向,旨在研究智能数据分析的理论和算法,是实现上述目标的关键。近年来,针对高维的、非线性的、复杂属性的数据聚类问题,多核图聚类得到了学术界与产业界的广泛关注,得益于:(1)多核学习利用多个核函数将原始数据映射到多个不同的候选核空间中形成多核数据,使得数据在核空间中线性可分,有利于图聚类任务开展,既能避免传统单核方法面临的核函数与核参数选择的挑战性难题,还能抵御原始高维数据带来的维度灾难;(2)多核数据作为多视图数据的一个典型代表,其具有的互补性、共识性、兼容性、完备性,能充分地利用各个基核不同的信息表征能力,弥补单核信息不足导致的认知偏差,从而较好地约减一些不利因素的影响;(3)图学习对复杂数据有强大的鉴别能力与建模表征能力,能有效地发现复杂数据背后潜在的关联信息,揭露真实的类簇结构。鉴于此,本学位论文面向高维的、非线性的、复杂属性的复杂数据,以核方法、图论为理论基础,结合多视图学习、子空间学习、张量学习、结构保持等前沿学术思想,开展多核图聚类理论与方法研究,突破现有线性核加权多核图聚类研究思路限制,对丰富和发展图理论、核方法、聚类分析、多视图学习的理论、方法及应用拓展具有重要意义。总的来说,本学位论文主要贡献归纳如下:1.传统的线性核加权多核图聚类研究思路面临如下问题:(1)从多核学习的角度来看,现有的多核图聚类算法遵循线性核加权多核图聚类研究思路,这种学习思路假设最佳的共识核是多个基核的线性组合,因此面临着解集小的问题;(2)从图学习的角度来看,为了捕获核数据在核空间中的的全局低秩结构属性,现有的方法往往直接在核矩阵上施加低秩约束,但是实验证明这样的操作并不能使核数据具有低秩特性。针对多核学习的问题,本学位论文发展出近邻线性加权多核图聚类研究思路,在传统线性核加权研究思路的基础上引入邻域概念,即将线性加权产生的核作为伪共识核,在该伪核的邻域范围内,搜索最佳的共识核(称为伪近邻核学习);针对图学习的问题,本学位论文引入共识核的替身,并在替身上施加低秩约束,提出了一种新的共识核低秩约束正则项,此外,还考虑了数据在原始空间中的局部结构信息,使得原数据在原始空间中的局部结构信息得以保持。最后提出原始空间和核空间结构保持的多核子空间聚类算法(LLMKL),实验表明LLMKL算法及低秩替身在多核聚类任务上的有效性。2.近邻线性加权多核图聚类研究思路面临如下问题:(1)从多核学习的角度来看,尽管近邻线性加权多核图聚类研究思路能一定程度上扩大解集范围,但是作为基准的线性加权核可能已经远远偏离真实的最佳共识核,因此扩展的解集不一定有效,此外,基核的权重更新依赖二次规划(NP难问题),导致线性核加权研究思路都面临高计算复杂度的问题;(2)从图学习的角度来看,数据在核空间中的结构信息对于聚类来说至关重要,而存在的方法并没有充分挖掘此类信息。针对多核学习的问题,本学位论文在伪近邻核学习的基础上提出了一种新的近邻自加权多核图聚类研究思路,该研究思路基于两个直观的假设:(1)所有基核都是潜在的最优共识核的一个扰动;(2)与最优核接近的核应该拥有比较大的权重,基核权重以自加权的方式更新,避免复杂的二次规划求解;针对图学习的问题,本学位论文提出同时考虑保持数据在核空间中的全局结构和局部结构信息。最后,分别提出了联合块对角正则器与熵尺度加权鲁棒多核子空间聚类算法(JMKSC)与同时全局与局部结构保持的多核图聚类算法(SPMKC),分别基于熵尺度和高斯核设计核加权策略。实验表明,提出的方法较线性核加权多核图聚类算法,有明显的聚类性能提升与运行时间改善。3.近邻自加权多核图聚类研究思路面临如下问题:(1)从多核学习的角度来看,该研究思路往往同时学习一个共识核与关系图,多核图聚类的重点应是图学习,过多地关注核学习难以充分挖掘基核潜在的图结构信息;(2)学习的共识核往往不再满足核Mercer定理,不能加速求解,导致关于核矩阵求逆运算时的时间复杂度还是较高。针对上述问题,本学位论文提出纯图多核图聚类研究思路,将不再考虑共识核学习,而是将基核直接转换为候选关系图后开展图学习。为了改善图学习质量,本章假设:(1)学习的最佳共识关系图是所有候选图的一个扰动;(2)按照对共识关系图学习的贡献不同,给与不同的候选图不同的权重。按照这两个假设对候选图进行融合生成共识图。最后,提出直接共识关系图学习的多核图聚类算法(CAGL),在大量的人造非线性多核数据集和真实场景下的多核数据集上对CAGL算法的有效性进行了验证,实验结果验证了纯图多核图聚类研究思路的有效性。4.纯图多核图聚类研究思路面临如下问题与挑战:(1)该思路忽略了候选图的高阶结构信息或深度结构信息,因此并没有充分挖掘隐藏在数据里更有效的结构信息,而结构信息对于无监督聚类算法来说至关重要,在学位论文研究过程中的大量实验表明,高阶结构信息对于聚类性能提升非常有效;(2)从图学习角度来看,除常见的自表示子空间学习和自适应邻居图学习方法外,迫切需要新的图学习方法来丰富针对非线性数据的图学习理论。鉴于此,本章提出高阶多核图聚类研究思路,该研究思路先利用图学习方法将多个基核转换为多个候选关系图,再利用三阶图张量学习,捕获样本-样本之间、视图-视图之间的高阶结构信息。最后,提出了非负矩阵分解定制的多核图张量聚类算法(NMFTGT)与核k均值图张量耦合的多核图张量聚类算法(KCGT)。在大量的不同类型、不同规模的多核数据集上对NMFTGT与KCGT算法进行了检验,实验结果验证了高阶结构信息对于聚类任务的有效性。
其他文献
图像融合最早出现在20世纪70年代后期,是综合了传感器、图像处理、计算机和人工智能理论的交叉研究领域。Pohl等人对图像融合定义如下:图像融合就是通过一种特定算法将两幅或多幅图像融合成一幅新图像。利用多传感器信息之间的冗余性和互补性,图像融合技术可以将多个传感器在同一时间或不同时间获取的关于某个场景的序列图像信息加以综合,从而生成一幅新的对该场景描述更为全面、更精确的图像。例如,在医学领域,图像融
微生物多糖复杂的化学结构赋予了其多种生物学功能,如抗肿瘤、抗氧化、免疫调节、降血糖、保湿和抗凝活性等。本论文主要研究了菌株ZX1905制备新型胞外多糖的工艺,分析了该多糖的结构、理化性质以及多糖合成的相关基因,探索了该多糖的生物活性和潜在的应用前景。主要的研究内容如下:1.ZX1905菌株胞外多糖的制备和结构鉴定。ZX1905菌株为革兰氏阳性菌。通过16S r DNA同源性分析鉴定该菌属于类芽孢杆
由于其诱人的应用前景,人脸年龄合成研究吸引了一批研究员的注意。如何保持与年龄无关特征不变、仅改变人脸的年龄属性,一直是人脸年龄合成中的一项具有挑战性的任务。研究员们尝试选择生成式对抗网络作为生成模型,值得注意的是研究结果表明虽然这些方法能够合成逼真的、具有特殊老化效果的图像,但是它们的模型还存在着一些缺点。这些方法通常会使用自编码风格的生成器,而这种结构的生成器可能会限制模型的年龄编辑能力。一方面
逐渐恶化的环境问题及不断增长的能源需求,发展绿色高效的能量储存器件迫在眉睫。在众多能量储存器件中,水系钠离子电池因其具有较高的理论能量密度、低成本以及高安全性在电化学储能领域被广泛研究。然而,水系钠离子电池较低的电压窗口并且与有机系电解质相比水系电解质较低的能量密度进一步限制了水系钠离子电池更广泛的应用。因此,研究高性能的电极材料是提高水系钠离子电池能量密度的关键。单斜相VO2(B)独特的层状结构
本文以某大直径固体火箭冲压发动机工程应用为研究背景,对发动机进行地面直连试验研究与数值仿真,进而对弹体-进气道-补燃室一体化流场的过渡态过程进行非稳态数值分析,探讨发动机补燃室两相燃烧流场特性等问题,为该型固体火箭冲压发动机在导弹上的工程应用提供理论指导。(1)本文根据某固体火箭冲压发动机的飞行工况,对发动机进行地面直连试验,对进气道总压总温以及补燃室内部近壁面压力温度等信号进行测量,收集发动机内
随着便携式移动设备的普及,越来越多的人们通过使用这些设备拍摄视频来记录日常生活。然而,在拍摄的过程中,当所拍摄的物体处于高速运动的状态或者拍摄设备不可避免地出现了抖动,这就会导致视频出现模糊,影响人们对视频内容的理解。因此,为了恢复降质视频中丢失的信息,本文提出了两种基于卷积神经网络的视频去模糊方法,其主要研究工作如下:(1)清晰样本特征引导的视频去模糊方法。提出了一种利用清晰样本特征来解决视频去
本文主要通过旋转加速喷丸(RASP)和锻打+轧制+退火两种塑性变形工艺对2205及2507双相不锈钢进行了塑性变形处理,通过多种分析测试手段,系统地研究了双相不锈钢在不同塑性变形工艺中的物相变化、力学性能和微观组织演变,主要有以下结论:(1)经RASP处理后,2205双相不锈钢表面发生剧烈塑性变形,粗糙度显著增大,在材料表面引入梯度纳米结构,表层晶粒细化效果明显,最表层是超细晶,随着深度的增加,晶
射击精度是考核评估火炮性能的主要技术指标之一,随着火炮系统的复杂程度和现代战争对火炮射击精度的要求越来越高,精度形成机理成为研究的难点和热点。弹丸定心部与身管接触碰撞对弹丸在膛内的运动状态有着重要的影响,进而严重影响弹丸出炮口状态,最终直接影响了射击精度,因此,研究弹丸定心部和身管接触碰撞过程,揭示其运动特性及响应规律具有重要的科学意义。但是,弹丸在膛内运动过程伴随着高温、高压、高速、高过载,力学
为了减少能耗及提高水中航行体的机动性,水下通气射流减阻技术作为最有前景和前沿问题之一,受到研究人员的广泛关注。目前,航行体壁面通气射流减阻技术是提高水下航行体机动性的重要方法之一,通过向水下航行体壁面注入气体,在航行体壁面形成一层薄的气相介质膜,在改变壁面流体流动状态的同时,有效降低了高速航行体在水中受到的摩擦阻力。本文基于数值模拟的方法,主要研究了喷孔形状和喷气速度对水下通气射流流场与减阻效果的
频率选择表面(Frequency Selective Surface,FSS)和透射阵天线在设计时都要考虑单元的传输性能,带宽的拓宽是二者设计时都要解决的难题。二者在军民领域都具有非常重要的应用价值,FSS作为空间滤波器,主要是利用其对电磁波的选择透过能力来制作天线罩从而帮助雷达载体达到“隐身”效果;透射阵天线主要用作高增益天线来应对远距离通信或探测。本文围绕频率选择表面和透射阵天线展开研究设计与