可扩展的谱聚类算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:bee2357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是探索数据内在关系的一种最重要的技术,其应用范围包括统计学、计算机科学、生物信息学等。迄今为止,许多学者,针对不同的问题和应用环境,提出了不同的聚类算法。在这些已有的聚类算法当中,谱聚类算法,作为一种基于谱图理论的聚类算法,相比较于基于欧式空间几何分布的算法(如k-means等),往往可以取得更好的聚类效果。不仅如此,谱聚类算法还可以很好地解决数据线性不可分的问题或数据存在非凸结构的问题。虽然谱聚类拥有上述优点,但是其高昂的计算复杂度使得其在大规模数据下的应用捉襟见肘。为了在大规模数据下加速谱嵌入的速度,并且能够尽可能少地损失原始数据所包含的信息,我们试图进一步的完善现有的谱聚类的改进算法。粗略地来讲,给定一个数据集合X,一种数据间相似度的度量函数和聚类个数k,谱聚类首先使用度量函数S,计算每对数据的相似度并构造相合度矩阵A,接下来,构造该相似度矩阵A所对应的拉普拉斯矩阵L,并求解该拉普拉斯矩阵L的前k小个特征值所对应的特征向量,这一步也被称之为谱嵌入(Spectral Embedding)。最后,将所得到的k个特征向量的每一行作为一个样本,对其使用k-means算法得到最后的聚类结果。首先,本文提出了一种精度更高的锚点表示算法。现有的基于锚点表示算法使用非参数回归的方法(Nadaraya-Watson估计,N-W估计)来求解原始数据样本从标准正交基下到锚点基下的坐标转换。作为一种核估计方法,N-W估计缺乏较好的可解释性并且对参数敏感。在有些极端的情况下,N-W估计的误差较大。本文使用局部约束线性编码来求解数据在锚点基下的坐标,与现有可扩展的谱聚类算法相比,该算法具有较高的精度和更好的可解释性。考虑到局部约束线性编码并不能保证基坐标变换后的坐标是非负的,即无法保证任意一对数据坐标的内积是非负的,进而无法保证拉普拉斯矩阵的半正定性。针对上述问题,本文提出了一种改进的局部线性编码的目标优化式。该方法首先查找与数据样本最“相似”锚点,并使用改进的局部约束线性编码得到数据样本的锚点表示。然后,以内积的形式来描述数据样本间的相似度关系,最后根据奇异值分解的性质,快速地得到谱嵌入后的数据样本并对其进行k-means聚类得到最后的聚类结果。其次,本文提出了一种基于局部相似度表示的谱聚类方法。现有的基于锚点表示的谱聚类算法没有运用到嵌入在给定相似性函数中的先验知识,与现有的算法相比,该算法仅需要进行近邻搜索操作,而非对每个数据样本进行一次回归问题求解,故该方法可以有效地降低锚点表示的时间复杂度。这种方法首先随机从数据样本中选取一些数据样本作为锚点,接下来查找与数据样本最“相似”锚点,并使用相似性函数来重新描述原始数据。然后,以内积的形式来描述数据样本间的相似度关系,最后根据奇异值分解的性质,快速地得到谱嵌入后的数据样本并对其进行k-means聚类得到最后的聚类结果。最后,本文提出了一种基于最小生成树的度启发锚点选取方法。考虑到使用k-means进行锚点选取的时间复杂度是O(tpnd),其中t是k-means执行的迭代次数。在原始数据的分布可能存在非凸结构或是线性不可分时,t的增大导致使用基于k-means的锚点选取算法的时间复杂度必然会比基于随机选取的锚点选取算法的时间复杂度高,虽然这会带来更好的聚类精度。然而,基于随机选取的锚点选取算法在一定程度上会造成精度损失。该方法的提出就是为了能够平衡这种锚点选取方法所带了的精度和速度上的问题。
其他文献
基站端配置大量天线的大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术是5G无线通讯实施方案的核心技术之一。结合了MIMO技术和正交频分复用(Orthogonal Frequ
Logistic分布(Logistic Distribution,LD)函数常用作增长曲线和二进制响应变量的建模.该分布的密度曲线具有位置、刻度参数,形状与正态分布形状相似,但是尾部更厚.为更好地描述数据分布的尾部形状,常引入两个形状参数,得到LD的推广形式:广义Logistic分布(Generalized Logistic Distribution,GLD).作为一种偏态分布,GLD具有可以在一
快速成型技术又称3D打印技术或增材制造技术,是这几年来广泛推广并得到飞速发展并充分应用的一种生产技术,控制系统是快速成型机的核心部分,控制系统水平高低对制造速度、精
多智能体系统在进行分布式协作控制任务时,首要目标是促使系统成员的指定状态值达成一致。Olfati-Saber提出离散时间一致性协议要求智能体在演化过程中与每一个邻居进行通信协作。然而,当大规模多智能体系统依据上述控制协议进行演化时,存在通信冗余与无效的邻域信息会限制系统的收敛一致的能力和系统收敛一致的速度。因此需要为一致性协议设计出合理有效的邻域成员选取策略减少不必要的通信。保持系统通信拓扑的连通
北京电力科学院电子资源管理系统是为解决科学院现存海量资源难以系统化管理的问题而研发的系统。通过本系统的研发实现了对北京电力科学院自身系统资源进行系统化、规范化管
纳米反应器是指多个分子以特定方式连接而形成的一类具有催化活性的人工模拟酶分子或分子组装体,因其可基于分子层次上对空腔的微环境及催化过程进行模拟再现,从而引起了广大研究者的注意。根据组装分子的数量和空间排列,可收敛自组装成有限的离散型单分子笼状纳米反应器,或发散自组装成无限的聚合网状纳米反应器。笼状纳米反应器具有更好的溶解性及显著的客体响应能力,其在气体分子的储存与分离、活性中间体的捕捉、离子/分子
说话人识别是一种利用说话者的声学特征来进行身份验证的技术,又称为声纹识别。我们知道,人类的声纹是独特的、简单易得的、并且非常稳定的,说话人识别技术利用人类声纹的特
互联网技术飞速发展,用户每天通过在线社交会产生大量数据,通过对数据的分析及利用可以为人们创造更多的价值。而高效的图匹配技术可以为数据分析提供鼎力支持。图模式匹配(G
随着电子信息技术的迅速发展,对电子元器件的小型化、低成本、多功能化以及高稳定性的要求越来越高,对相应材料也提出了更高的要求。钨青铜结构材料作为重要的一种功能材料,具有优异的介电、铁电及非线性光学等性能,得到了广泛的应用。钨青铜型材料复杂的晶体结构极大的丰富了其性能调节和优化的可能性。遗憾的是,目前对钨青铜结构材料的电学和非线性光学性能研究较多,但多为单一研究的性能,多种性能的系统性研究很少。同时对
海洋是重要的战略空间和后备资源宝库,伴随着我国综合国力的不断增强,国际间深海领域的竞争也逐渐激烈。因此大力发展海洋高新技术,提升国家竞争力成为关键。感应耦合锚系链