流形学习理论及其应用研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liongliong429
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据降维是数据挖掘的一个非常重要的工具和方法。数据降维的目的是找出隐藏在数据中的低维结构,通常可以分为线性降维和非线性降维。线性降维方法(如主成分分析、多维缩放)能够保持高维数据点之间的线性关系。由于现实中数据的有用特征往往不是特征的线性组合,人们提出了非线性降维方法(即流形学习)来处理非线性数据集。局部线性嵌套㈣是一种经典的流形学习方法,它有参数少、计算快、易求全局最优解等优点。但它也有着一定的缺点:LLE假设数据点位于一个稠密采样的流形上,这样局部邻域就能很好地逼近流形的局部结构。然而现实中很多数据集都不能满足这个假设,数据集的采样密度比较稀疏,数据之间会产生较大的间隔,直观上可以看作具有多流形结构,如果用LLE进行可视化或者分类应用,得到的结果会较差。 本文我们对LLE的缺点进行了详细分析。对于带有噪声的数据集,我们提出了一种鲁棒的解决方案;并对具有多流形结构的数据集,提出了一种半监督的改进方法:度量局部线性嵌套(Metric LLE)。它利用数据集的先验类别信息,进行距离度量学习,用学习得到的马氏距离代替传统的欧氏距离,对数据集中的相关成分赋以较大的权重,对数据集中的不相关成分赋以较小的权重。实验结果表明它对采样密度稀疏的数据集的可视化和分类有着较好的效果。我们还针对流形学习中的增量学习问题提出了一种参数化映射算法,它利用高斯混合模型对高维数据和对应的低维嵌入进行建模,通过期望最大化算法估计模型的参数。实验结果表明该方法能够精确有效地计算得到新增高维数据点对应的低维坐标。
其他文献
随着网络信息化的高速发展,网络中的可用Web服务资源日渐增多,通过Web服务集成可以充分利用已有资源,实现面向网络化、跨地域和异构平台的系统功能的一体化。但是,Web服务无法高
随着社会的不断进步和网络技术的不断发展,互联网用户和互联网站数量都在不断的增长。对网络服务器的可用性、可扩展性和安全性的要求越来越高。传统的单服务器模式,已经不能满
在多Agent系统理论中,为了尽可能细致的刻画Agent合理的行为能力,人们提出了合作的概念。其中,最为自然的一种合作形式就是联合,即系统中Agent个体保持和团体完全相同的价值
在信息和知识经济时代伴随着计算机技术和网络技术的不断发展,企业纷纷建立自己的商务网站,开展电子商务活动,日积月累网站上生成了大量的与客户有关的记录信息,这些信息对企业来
随着Internet的发展,互联网络环境下的信息安全由于涉及到国家安全和社会稳定,已日益受到各国政府部门和社会各界的重视。信息安全的关键内容是密码技术,而密码技术的核心则
随着信息技术的发展,人们在日常事务处理和科学研究中积累了大量宝贵的数据。如何从中提取或挖掘用户所需要的信息,是当前信息科学和技术领域面临的一大挑战。关联规则(associa
随着社会的进步和汽车工业的飞速发展,汽车的安全问题被提到一个前所未有的高度。汽车防抱死制动系统(Anti-lock Braking Systcm,简称 ABS)是一种主动安全装置,它能够提高汽车的
Web使用挖掘是Web挖掘领域中的一个重要研究方向。它对于发现用户访问网站的规律、提高Web系统的性能和实现Web系统的个性化服务等方面都具有重要意义。将Web使用挖掘技术和
在当前的电脑游戏中,图形质量的发展已经到了近乎极至的水平,人工智能已经成为决定游戏成功的重要因素,越来越多的游戏开发者和研究者开始将重点转移到游戏中的人工智能研究
随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息己经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。为了提高