基于流形学习的数据降维算法的研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:jh_viso1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,科研工作者在研究过程中不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布、文本聚类中的词频等,所以经常会面临高维数据降维的问题。数据降维的目的是要找出隐藏在高维数据中的低维结构。为了更精确地刻画图像和其他感知刺激的变化,采取数学方法是非常必要的。流形学习是近年来出现在机器学习领域的一种重要方法,在探索非线性数据降维方面取得了令人瞩目的成果。近年来,已经发展了许多有效的基于流形学习的非线性数据降维方法。主要包括等距映射(Isomap)、局部线性嵌入(LLE)以及它的变换形式Hessian LLE、拉普拉斯特征映射(Laplacian Eigenmaps)和局部切空间排列(LTSA)等。LLE是典型的基于流形学习的非线性数据降维方法,已经广泛应用于数据的降维、聚类及可视化等领域。对于流形上的样本点,LLE利用其近邻点的线性组合进行线性逼近,求得局部重建权值矩阵,然后根据重建权值矩阵构造重建误差并使其达到最小,从而求得样本的低维嵌入。然而,不同近邻个数的选取会产生不同的重构误差,不同的重构误差势必会严重地影响数据低维表示,从而使LLE算法的降维效果相对的不稳定;此外,LLE算法假设样本点在高维空间的分布是均匀的,它没有很好的考虑数据点间的密度信息。值得指出的是,高维观测空间的数据密度对其维数的确定具有很重要的影响作用,对于数据密度变化较大的流形,LLE很可能会将在高维空间中相隔较远的点映射到低维空间中相邻近的位置,从而导致嵌入结果有着比较明显的扭曲。这些都是LLE算法面临的问题。本文从高维数据的结构特性出发,全面地分析和总结了现有的数据降维方法,着重研究了LLE算法并对其进行了修正改进。具体来讲,本文的主要工作包括:⑴全面总结了现有的数据降维方法,对具有代表性的方法进行了系统分类和详细的阐述,并从算法的时间复杂度和优缺点两方面对这些算法进行了深入的分析和比较。⑵在LLE算法中,不同近邻个数的选取会产生不同的重构误差,从而产生不同的降维效果。本文利用聚类中心含有大量的信息这一特点,定义了近似重构系数,并提出了改进的LLE方法。⑶LLE算法假设样本在高维空间的分布是均匀的,对于密度不均匀或密度变化较大的数据集,LLE很难正确降维。本文分析了LLE算法的不足,提出了基于密度的LLE算法——DLLE算法。
其他文献
软计算是指将处理模糊现象的方法与仿生算法结合、解决传统计算不能解决的复杂问题的方法。已有的研究成果显示出软计算特有的价值和作用。本文研究了中介真值程度度量(measu
内河航运在我国交通运输中地位越来越重要,但随着内河船舶数量不断增加,且船舶不断向大型化高速化发展,以及内河环境复杂多变和内河河流弯曲等这些问题给船舶航行安全带来了严峻
软件测试是保证软件质量与可靠性的重要手段,随着软件复杂性的提高,软件测试在软件开发过程中的地位也越来越重要。然而,软件测试过程复杂,且重复性较高。提高软件测试的自动化程
随着微博、微信等社交工具的普及,每个人都成为了社交网络信息的发布者及传播者,这些社交服务也因此积累了大量用户产生的数据信息,其中包括用户的个人档案、社交关系、文本
计算机和互联网的急速发展,尤其是移动互联网技术的广泛应用,彻底改变了人们获取和分享信息的方式,海量互联网信息满足用户对信息的多样需求,为用户提供了极大的支持和帮助。
近年来符号型数据的无监督学习在模式识别、机器学习、数据挖掘和知识发现等诸多领域,起着愈来愈重要的作用。为了有效地挖掘符号型数据内在的组结构信息,相关文献中已经发展
图像分割作为图像分析和识别的关键步骤,是图像低层处理到高层理解中不可或缺的过程。颜色作为图像的一个重要信息,在彩色图像分割的过程中起到关键的作用,而目前的彩色图像
随着网络的广泛应用,局域网内部的安全问题日益严峻。传统外部网关或防火墙技术能保证内部网络免受外部的入侵与攻击。但是,对于网络内部用户访问内网资源的安全性操作没有进
无线传感器网络作为一种新兴的信息获取系统,在探测、工业生产自动化、生态环境监测等方面,都具有非常广阔的应用前景。无线传感器网络中的节点具有体积小、成本低,而且具有
无线传感器网络,是集成了传感器技术、微电子技术、网络通信技术而形成的具有信息获取和信息处理功能的移动网络,它是多学科交叉的前沿研究课题,在军事、工业、医疗、交通和