主流形学习及应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习是机器学习研究的一项重要领域,它能够发现高维数据中的内在低维结构,并把数据约减到一个非线性的流形空间上帮助人们分析和挖掘数据的实质,因此得到广泛的应用。通过主曲线和主曲面的方法挖掘数据中的潜在流形结构是流形学习中的一项重要技术,称之为主流形学习,本文就目前主流行学习中的理论和应用上的不足,即:1)如何恰当的度量数据点对之间的距离;2)如何利用数据的潜在流形结构来合理的划分和组织数据;3)如何利用数据的流形性质分析数据点的异常情况等等,我们主要提出了以下的理论与算法:·提出一种基于黎曼距离度量的主曲线算法Principal Riemannian Curves (PRC),该算法根据数据的黎曼距离假设,参照数据的分布密度,学习到一条更加逼近数据真实分布的主曲线。·首次提出一种非线性的空间划分方法Principal Curve Tree(PCTree),该算法能够依据数据的内在流形结构分割数据单元,从而获得更高的K近邻查找准确率,我们从理论上分析并证明了该划分方法取得了更好的覆盖率;·提出一种基于流形的树形结构的异常检测方法。该方法通过少量的训练样本建立一棵随机投影树,它能够发现数据中存在的流形结构,以此结构为基础我们获得了一种快速的异常点区分方法。除了理论方面的研究,将我们的方法应用到真实的环境包括半圆形轨道上的GPS数据,UCI机器学习数据集上都获得了满意的效果,从而验证了我们方法的准确性、可靠性以及高效性。
其他文献
流形学习方法是近年来被学术界公认的有效方法。针对流形学习的选择标注问题,本文提出一种选择标注分层流形学习算法,其内容包括:1)构建了保持流形拓扑特性的标注点集,用于结
移动通信行业快速发展,越来越多的数据增值业务推出,这些既方便了用户,但是又带来了许多的困扰。手机不同于电脑,一个新业务往往需要经过正确的参数配置才可以使用;此外,有的
随着信息化的不断发展和变化,企业在发展的不同层次和阶段采用的技术路线和应用水平也各不相同,导致大多数企业都逐渐产生了不同程度的“信息孤岛”现象。所谓信息孤岛是企业
蛋白质的三维结构是体现其生化功能和细胞功能的基础。蛋白质结构柔性是指天然态下的局部结构微变的多个平衡的结构,这种柔性对于许多蛋白质来说是非常关键的特征,对蛋白质正常
随着计算机软硬件的发展以及计算机图形学相关理论的完善,图像分割逐渐成为人们关注的热点。在医学研研和临床实践中,许多病症的诊断、治疗过程都依靠图像分割,图像分割是帮
概念学习作为机器学习的一种学习范式,其相关算法被广泛应用于数据挖掘、模式识别、图像处理等相关领域,并且取得了较好的应用效果。目前,研究概念学习的基础理论主要有:模糊
无线传感器网络是以数据为中心的一种新型的信息获取的方式,是基于现代网络、无线通讯技术以及分布式信息处理技术等发展起来的一种分布式的信息获取和处理系统,在环境监测、医
随着信息技术的发展,数据泄漏所引起的种种安全问题也逐渐引起人们的高度关注,特别是在企业信息安全领域,越来越多的企业都引入了自己的信息泄露防护系统。其中国内比较知名
随着云计算的兴起,互联网业务呈爆炸式增长,使得传统的互联网结构面临许多挑战,使其僵化现象日趋显著。如果采用全新的互联网架构来解决僵化问题将会遇到以下两方面困难:一方
随着分布式技术的不断发展,对安全组通信在研究越来越受到关注。在一个安全的通信组中,最重要的是要保证组内通信数据的机密性。这就需要组内成员之间有一个共享的会话通信密