【摘 要】
:
随着信息技术的多样化应用,人类社会每天都会产生包括文本、图像以及基因等形式多样的海量数据。如何将数据转化成有组织的知识,挖掘出有价值的信息已经成为当今大数据时代的重点研究目标,并引起科学界、企业界和各国政府的高度重视。无监督的学习方法,特别是针对大规模数据的聚类分析,已经成为帮助人们探索未知数据的不可或缺的技术。基于图学习的方法是聚类领域的主流研究方向之一,被广泛地应用于层次聚类和谱聚类算法中。然
论文部分内容阅读
随着信息技术的多样化应用,人类社会每天都会产生包括文本、图像以及基因等形式多样的海量数据。如何将数据转化成有组织的知识,挖掘出有价值的信息已经成为当今大数据时代的重点研究目标,并引起科学界、企业界和各国政府的高度重视。无监督的学习方法,特别是针对大规模数据的聚类分析,已经成为帮助人们探索未知数据的不可或缺的技术。基于图学习的方法是聚类领域的主流研究方向之一,被广泛地应用于层次聚类和谱聚类算法中。然而,这些方法仍然存在一些缺陷:大多数的层次聚类方法对噪声比较敏感,在噪声数据中聚类性能显著下降;受不同视图之间的异构信息和高维复杂的特征影响,多视图谱聚类不能准确地学习一致图。本文针对上述缺陷,提出更为鲁棒和有效的图学习模型以提高聚类性能。具体研究工作包括如下四方面:(1)针对现有基于图的层次聚类在图构建过程中大多只考虑数据的成对距离,对噪声和离群点比较敏感,融合对噪声、离群点具有鲁棒性的重构系数和成对距离,提出一种新的邻接图学习方法。重构系数的主要特点是数据的自表示性,即每个数据点可由另外一些数据点的线性组合来重构。所构建的邻接图能够同时利用数据点之间的距离和数据点之间的线性表示,因此其不仅能够很好的捕捉数据的局部结构,而且对噪声和离群点具有鲁棒性。基于所构建的邻接图,开发一种新的凝聚层次聚类算法,并在一些真实数据集上验证所提方法的有效性。(2)针对现有基于图的层次聚类大多同等地对待所有特征,在图构建过程中容易受到噪声特征的影响,提出一种基于自适应加权和流形正则化的邻接图学习方法。该方法在重构误差项中嵌入自适应加权矩阵,以增强重要特征在图学习过程中的影响。它从特征空间中消除噪声的影响,使所提方法能够获得一个相对鲁棒的邻接图。同时,引入流形正则化来捕捉数据自表示过程中的群效应,使数据的重构系数相对于固有数据流形是平滑的。此外,截断不重要的重构系数,进一步从表示空间中消除噪声的影响,从而获得具有块对角性和更有效的邻接图。基于所提出的邻接图,开发一种新的凝聚层次聚类算法,并在一些真实数据集上验证所提方法的有效性。(3)针对现有基于锚图的多视图谱聚类容易受到不同视图间异构信息的影响,导致聚类性能受限,提出一种基于低秩张量逼近的联合锚图学习方法。该方法首先通过平均不同视图的锚图来初始化联合锚图的亲和矩阵,并构造一个强置信亲和矩阵来刻画多个视图的强共识亲和信息。然后将这两个矩阵组成一个三阶张量,基于低秩张量逼近,使用强置信亲和矩阵中的可靠信息来修正初始的联合锚图,从而降低异构信息的影响。同时,设计一种高效的交替迭代优化算法来解决这一低秩张量优化问题。最后,在一些真实的多视图数据集上验证所提方法的有效性。(4)针对现有的多视图谱聚类在图构建过程中大多只考虑数据的浅层信息,难以有效地处理具有高维复杂特征的数据,提出一种基于对比深度矩阵分解的邻接图学习方法。该方法将深度矩阵分解和基于重构系数的图学习联合到一个统一的模型,以在图构建过程中利用数据的层次特征信息。为解决矩阵分解的可扩展性问题,模型使用一个变种的自编码器网络来近似多视图深度矩阵分解,并通过增加激活函数来保证每一层的输出具有一定的约束。首先,构建具有单个共享编码器和多个解码器的变种自编码器网络,将多视图融合转化为寻找一致邻接图问题。同时,模型还采用图对比学习约束来挖掘数据中的局部结构。然后,模型利用梯度下降法,通过反向传播以实现网络中参数的更新。最后,在一些真实的多视图数据集上验证所提方法的有效性。综上所述,本文从基于图学习的层次聚类和谱聚类出发,针对其中的一些关键问题提出多个图学习模型,并通过综合实验验证所提模型的有效性。
其他文献
垂体腺瘤(pituitary adenoma,PA)是神经外科的常见肿瘤,占所有颅内肿瘤的10~15%,约1/3垂体腺瘤患者表现为恶性生物学行为,例如,肿瘤压迫周围组织,可能导致患者出现神经及内分泌症状,侵袭性垂体腺瘤还能浸润周围硬脑膜、海绵窦、脑组织及骨组织,海绵窦及颈内动脉的侵袭是垂体腺瘤预后不良的重要因素。海绵窦等重要组织的肿瘤侵袭给手术切除肿瘤带来巨大挑战,增加了脑脊液漏及颈内动脉损伤风险
恶性肿瘤严重威胁人类生命和健康,根据恶性肿瘤的细胞类型,它主要分为癌症和肉瘤两种类型。与正常细胞相比,恶性肿瘤细胞内基因结构和功能都发生了改变,并且其发生和发展通常不符合孟德尔遗传定律。此外,恶性肿瘤还具有多基因协同性、疾病异质性和个体特异性等特点。大部分恶性肿瘤本质上属于多基因遗传易感性疾病,其发病机制是多基因协同调控的结果。因此,从基因分子水平角度研究恶性肿瘤基因调控模式、生物过程、信号通路和
我国是世界上重要的农业大国,却不是农业强国,农业产业水平低、产业结构不合理、农业生态环境等问题突出。传统农业正在加速向现代农业转变,农业逐渐全方位参与国际竞争。吉林省中部粮食主产区既有良好的农业生产基础,又是城市群发展的重要区域。本研究以城乡关系理论、人地系统理论、区位理论为基础,从生产布局、产业集聚、农业发展等多角度,深入探究吉林省中部粮食主产区农业发展时空演变、动力机制和提升路径。结合空间计量
太赫兹波拥有众多优良的特点和巨大的应用价值,其在天文探测、大气遥感、材料科学、安全检测、生物医学、雷达系统、无线通信都有广阔的应用潜力。随着半导体技术和固态集成电路的发展,越来越多的研究者将目光投向了太赫兹固态技术,而单片集成是今后太赫兹固态电路发展的主要形式。平面肖特基势垒二极管具有器件寄生少、集成度高、可靠性好、可室温工作等优点,被广泛应用于太赫兹单片集成电路之中。然而,工作频率的升高和器件电
目前,平顶山矿区已经进入深部开采。深部巷道地应力高、围岩岩性差、巷道变形量大,巷道支护困难,维修费用高。当前深部工程软岩巷道支护理论与围岩控制技术,已成为矿业工程领域研究的热点和难点。针对平顶山矿区典型煤矿深部巷道围岩工程地质条件,论文采用实验室试验、理论分析、数值计算以及现场工业性试验等方法,研究了煤矿深部巷道围岩变形破坏基本特征,提出了深部工程软岩巷道“拱壳组合拱”支护模型,分析了“拱壳组合拱
电磁技术的用途非常广泛,目前已经应用在雷达系统、电子对抗、卫星定位以及小型化电子设备等众多军用及民用领域。电磁数值模拟技术可以有效节约电磁技术研究的成本,并缩短研发周期,因此其在电磁研究中的地位已经愈发重要。然而,由于实际工程领域的电磁问题的种类繁多,且具有复杂的几何结构和材料结构,电磁数值模拟技术在实际应用方面面临着诸多挑战。因此,针对复杂电磁问题,研究高效数值算法,减少计算机内存需求并提高仿真
精准、快速地从复杂场景中提取关键内容和感兴趣目标在军事侦察、城市安全监视和国家安防监控等应用中具有重要意义。然而,海量视觉信息的快速分析与智能理解对算法性能提出了更高的要求,尤其是面对包含杂乱背景、低对比度、多种类别和多尺度目标的复杂场景时,常规的算法或机器学习模型难以发挥有效作用。作为计算机视觉的主流方向和基于视觉内容分析的基础研究,视觉显著性检测旨在模拟人类视觉注意力的场景感知能力和主动选择机
圆极化扫描天线阵列相比线极化扫描天线阵列具有较低的极化损耗和优异的抗多径干扰能力,因此在卫星通信中得到了广泛的应用。已有国内外学者做出了大量研究,并设计出了多款单频圆极化扫描天线阵列和双频圆极化扫描天线阵列。然而,上述圆极化扫描天线阵列往往有着扫描角小于60°,轴比超过3d B,剖面过高和工作带宽小于10%等缺陷。此外,现有的双频圆极化扫描天线阵列的频率比(高频段中心频率/低频段中心频率)往往小于
有机无机杂化钙钛矿(organic-inorganic hybrid perovskite)由于制备方法简单、成本低廉和光电性能优异等特点,电池效率已从最初的3.8%提升到目前的26.1%,效率的突飞猛进使得钙钛矿电池的商业化前景更近了一步。然而传统铅基有机无机杂化钙钛矿电池含有有毒元素Pb,阻碍了其大面积产业化的步伐,因此寻找低毒甚至无毒元素部分或完全替代Pb,成为了目前迫切需要解决的问题。由于
黄茶属于中国六大茶类之一,具有广阔的市场前景。近几年来,因其具有养胃、润肺、减肥和降脂的功效,逐渐引起了消费者的关注。对黄茶产品的感官品质特征和理化成分分析,能够为黄茶的生产和销售提供理论支持。随着生活节奏越来越快,饮食习惯不规律,以及在长期各种压力下,人体胃肠道疾病的发病率逐年上升。便秘是一种常见的人体胃肠道疾病,常伴随着肠道菌群紊乱的现象。饮食干预能够调节人体肠道微生物组成和分布,且安全有效受