流形学习的方差最小化准则

来源 :浙江大学 | 被引量 : 0次 | 上传用户:shanlin_shanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在许多机器学习学习问题中,特征的维度通常都非常高,并且数据类别标签的获取非常困难或昂贵。在一个高维度的小样本数据集上进行学习通常都会导致很严重的过拟合。这个问题有两种流行的解决方案。一种是使用主动学习和半监督学习来最大化带类别标签的数据的价值并挖掘无类别标签数据的潜在价值。另一种方案则是流形学习:通过直接在数据的本征维度上进行几何分析来避免维度过高的问题。这里的关键在于:对于许多实际生活中的高维数据,可以很自然地假设数据点是分布在一个低维流形上的。流形的本征维度通常比外围欧氏空间的维度低得多,因此直接分析流形的本质几何性质,可以有效地避免维度灾难的问题。本文我们将提出一个通用的框架来将两种方案进行统一。我们将在机器学习的过程中显式地考虑到数据的流形结构,在此基础上,通过一个方差最小化的准则来求得最稳定的解。我们的工作基于拉普拉斯正则化的半监督学习算法,这是一个基于流形假设的半监督学习算法。通过分析算法及其解的统计特性,我们提出一个方差最小化的准则,来最大化学习的稳定性。学习问题的稳定性和算法的泛化能力是密切相关,这在学习理论中已经是众所周知的事实。基于这个准则,我们将实现具体的主动学习和特征选择算法。特征选择算法能够在保持原始特征维度可解释性的前提下有效地降低数据的维度。而主动学习算法则可以最大化类别标签的价值。两个算法都基于我们的方差最小化准则,因此都具有很好的抗过拟合能力。虽然他们的目标函数都是NP难问题,但是我们还提出了高效的近似算法可以对目标函数进行求解。通过在实际数据集上进行大量的试验,证明了我们算法相比于基准算法和主流算法得到了很大的性能提升。
其他文献
信息技术日新月异,必然要求信息传输速度更快更强,随着数字化地球的日趋形成,数字化信息存储量呈现爆炸式发展,海量磁盘随之出现,这对海量硬盘数据的快速复制提出了新的要求。本文
雾霾天气下,由于大气中存在的悬浮颗粒对光线具有吸收、散射作用,使得户外捕捉到的图像出现对比度下降,颜色衰减等降质现象,导致物体特征难以辨别,图像的观赏性降低,影响图像
面向方面的程序设计方法把软件系统的功能和非功能需求、平台特性等诸多不同的关注点相互独立,很好地实现了实现阶段横切关注点的模块化。但是,实现阶段的方面从何而来?显然,方面
随着 Internet 的迅速发展和分布式计算在各行各业应用的发展趋势,采用SOA(Service Orientied Architecture 面向服务架构)的Web 服务已经成为互联网应用解决方案的不可缺少
在软件编写过程中,开发人员不良的开发习惯以及经验不足等原因,他们单纯为实现功能而编写代码,忽视程序的结构性和可读性。代码编写上变得越来越混乱,使得整个代码结构变得臃
群智能算法作为一种启发式随机算法,一直以来备受研究者的青睐。该类算法适用范围较广,它不要求目标对象具有特殊的结构,只需提供少量的信息就可以对目标对象进行求解,并且这
近年来RFID(射频识别)应用发展快速,然而RFID原始数据的不可靠、重复、海量及其管理等所带来的问题对数据处理提出了更高的要求,所以对RFID数据进行处理是十分必要的。本文对RFID
P2P文件共享技术的兴起和发展是基于传统的有线网络,而经典的BitTorrent协议是目前互联网上最为流行的P2P文件分享应用之一。然而随着无线通信技术的发展和移动智能终端的日
熵模糊聚类是将模糊聚类与熵进行有机结合的一种方法,它不仅具有熵表示数据样本间相关信息的优点,而且具有模糊聚类方法中软聚类的优质特性,因而在聚类划分领域占有重要的地位。
随着信息时代的不断发展,单个的web服务已无法满足用户的需求,于是就需要若干个web服务之间进行交互组合,即把部署于internet上由不同web服务提供者提供的web服务根据特定的需要