基于循环矩阵投影的Nystr(?)m扩展研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:xjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类作为一种灵活的热门聚类算法,在处理小规模数据集时通常优于传统的聚类算法,例如k-means。当数据样本量记作n时,它的计算复杂度为O(n~3),空间复杂度为O(n~2),巨大的损耗导致了谱聚类方法对于大规模数据集处理的局限性。受到核方法、Nystr(?)m扩展思想和循环矩阵等矩阵分解技术的启发,本文提出以下工作来解决上述问题:首先,为了提升聚类算法处理大型数据集的速度,提出基于随机傅里叶特征逼近的特征选择算法。在设计的二阶段偏好聚类框架中,先根据随机傅里叶特征将偏好矩阵映射到特征矩阵,然后在转换后的特征空间中利用传统聚类方法进行聚类。在包含100,000个收视率的电影数据集上的实验结果表明,这种方法在聚类精度方面比Nystr(?)m和k-means方法更有效,同时具有更好的聚类性能。其次,为了降低核矩阵近似方法处理大规模数据集的空间复杂度和时间复杂度,提出基于随机循环矩阵投影的Nystr(?)m扩展方法。在设计的基于循环投影的Nystr(?)m扩展模型中,先利用随机采样得到一个初始矩阵的近似轮廓,然后构造循环嵌入矩阵,将该循环矩阵作为投影矩阵,从而将输入数据空间的初始轮廓嵌入到一个低维的特征子空间上,最后在子空间上进行特征值分解。与其他典型的矩阵近似方法相比,所设计的循环矩阵投影方法具有时间复杂度低,重构精度高的优点。最后,提出了一种无需特征分解的快速谱聚类算法,通过乘法迭代来降低时间开销,解决了样本数较大时传统谱聚类算法执行特征分解所消耗时间过大的问题。先利用Nystr(?)m方法进行随机采样来建立采样矩阵和原始矩阵之间的关系;然后基于乘法更新原理实现矩阵指示器矩阵的迭代更新。实验结果表明所设计的算法能够在保证聚类精度的同时,提高传统谱聚类方法的效率,弥补了谱聚类在处理大样本数据集时需要对拉普拉斯矩阵完成特征分解的时间消耗缺陷。综上所述,本文的目标是利用特征选择和特征映射方法扩展聚类方法,优化算法计算速度和存储空间,从而解决传统谱聚类方法存在的问题,使其更有效地应用于大规模数据集中。
其他文献
microRNA(miRNA)是一种由约18-25个核苷酸组成的非编码RNA,参与细胞代谢、增殖、凋亡和发展等细胞生命过程,参与许多人类疾病的发生发展与治疗,成为多种细胞功能中的关键调控因子。然而已经发现的miRNA-疾病关联数量很少,限制了miRNA在疾病治疗领域的发展,研究miRNA-疾病关联在人类疾病研究与治疗领域具有重要的理论价值与应用意义。miRNA-疾病关联预测的计算方法主要包括网络方
我国是电梯生产和使用大国,随着电梯保有量持续增长,老旧电梯逐年增多,电梯困人故障和安全事故时有发生,严重影响了人民群众生命财产安全和经济社会发展稳定。而现阶段电梯的监管维保模式为定期模式,维保时间间隔相对固定,对于使用频繁的电梯,定期维保的频率低;而对于运行次数少的电梯,定期维保的频率又过高。为此,国务院办公厅下发了“国务院办公厅关于加强电梯质量安全工作的意见”,依法推进按需维保,推广“全包维保”
无线传感网络是大量传感器节点按照某种组网方式并通过无线通信而形成的网络,节点负责对监测对象的信息进行收集,然后将收集到的数据通过汇聚节点最终传输给用户。由于无线传感网络的成本较低,覆盖范围广和抗毁坏性强,所以被广泛应用于国防、医疗和家居等各个方面。网络中的节点有时会受到损坏或者在使用过程中电池能量用完,而且环境条件的限制人为去进行维护是不实际的,所以路由算法的设计在此时就起到了非常重要的作用,目前
随着工业互联网、5G等新兴技术的发展,接入互联网的工业控制系统越来越多,工业数据传递的速度也越来越快,然而,互联网中存在的相关漏洞也在威胁着工控系统的安全。因此,保障其安全性避免被攻击是至关重要的。但是,由于工控数据具有维度高、冗余特征多的特点,导致现有的入侵检测技术依然存在着许多不足之处。而入侵检测性能优劣的关键在于是否采用了合适的分类算法以及是否根据数据集的特点进行了相应调整优化,因此,本文以
近年来随着科技的进步,深度学习和强化学习的发展迎来空前盛况。深度强化学习技术逐渐成为诸多领域的热点技术。作为多智能体领域的重要研究内容,深度强化学习以其强大的特征提取能力提取智能体周边信息和环境信息,以其强大的感知探索能力感知适应复杂多变的动态环境,从而做出最优决策。其中被诸多学者广泛关注的问题是基于深度强化学习的多智能体协同,其旨在研究智能体如何在复杂多变的环境中通过有效协同控制达到整体性能最优
洪水的显著特点是年际变化不稳定且易受特殊地形的影响。一般流域缺乏引洪、滞洪、过洪能力,形成的大洪峰流量洪水不仅破坏周围居民的生活环境,带来经济损失,对居民的生命健康也是巨大的隐患。因而对流域的洪水发生过程进行预报是至关重要的。山西省由于存在大规模的采煤活动,改变了流域的下垫面条件,从而影响洪水形成过程。现阶段也有不少水文专家对该特殊下垫面条件下的洪水形成过程展开研究,但由于采空区特殊下垫面条件地势
X光安检技术被广泛应用于公共交通场所和物流快递等行业的安全检查工作中,在保障社会公共安全方面发挥了重要的作用。然而,目前的安检工作主要依赖于安检人员对X光安检图像的主动识别,容易受到各种不稳定因素的影响,导致误检和漏检的发生,具有较大的安全隐患。本文探索了两种目标检测方法在X光安检领域的应用,分别是精度较高但速度较慢的two-stage方法Faster R-CNN,以及速度较快但精度较低的one-
【目的/意义】顺应泛网络条件下数字阅读和文献检索与利用的新情况,实现国人共享数字资源,是数字图书馆创新发展和提高中华文化软实力的重要路径。【方法/过程】分别基于数字图书馆的服务理念、服务动机以及用户信息行为新特征,对数字图书馆服务平台的功能需求进行深入分析。【结果/结论】此分析为"构建国家云图书馆"服务平台建设提供参考,可以推动数字图书馆服务平台建设、信息服务等研究向纵深发展。
当前信息爆炸时代,海量信息的生成也促使互联网与大数据分析等技术的快速发展。而我们在享受现代互联网带来的诸多便利的同时,也面临着信息过载(Information overload)的问题。人们难以便捷和迅速地从海量数据中有效汲取所需的各种信息。推荐系统研究面向这一现实迫切的任务需求,并迅速成为当前数据挖掘领域的研究热点。推荐系统方法可通过对数据信息进行建模,分析用户和项目间的潜在关联,从而挖掘用户行
云计算、大数据的发展促使互联网数据呈爆炸式增长,在这一背景下,人们越来越依赖推荐系统来过滤信息。无论是信息的生产者还是信息的消费者,推荐系统的出现都给他们带来了不小的益处。对于信息生产者来说,推荐系统使他们可以将所持有的海量信息有针对性地展示给不同的用户,在提高信息利用率的同时提升了服务质量,有助于提升用户满意度。对于信息消费者来说,推荐系统快速有效地提供给他们所需要的信息,减少了时间浪费,提高了