关于流形学习若干基础问题与核心算法研究

来源 :西安交通大学 | 被引量 : 5次 | 上传用户:szocean
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据特征提取,或数据降维,是数据建模与数据挖掘的基本问题,而流形学习是近年来所兴起的数据特征提取(特别是低维特征表示)最引人注目的热点方法之一。尽管已提出Isomap, LLE,Laplacian eigenmap等有效的流形学习方法,但其有效性机理、模型选择、对复杂数据的可应用性等基本理论与算法问题仍尚未解决。本学位论文针对流形学习方法的上述基础理论与算法问题进行系统研究,取得了一系列创新成果:(1)针对流形学习方法的模型选择问题,提出了有效的邻域尺寸与本质维自动选择策略。通过构造指数加权的k近邻距离均值表达,提出了近似描述流形数据局部本质维分布的刻画函数;通过定义刻画函数的稳定性度量,导出了流形学习算法邻域尺寸的最优选择策略;进而通过选取本质维分布的稳定值,实现了对数据本质维数的自动设定。所提出的理论与方法简洁、有效,可广泛实用于流形学习算法的参数自动设定。(2)针对流形学习方法的有效性机理与环结构问题,以Isomap方法为切入点证明了“数据流形不存在环结构是流形学习方法有效的充分必要条件”这一重要结论。该结论首次严格阐释了Isomap方法不能有效应用于具环结构复杂数据的本质原因。针对环流形数据降维问题,我们进而发展了有效的流形学习算法。所提出的新算法能够:(a)基于给定数据集判定其中是否存在结构;(b)针对环结构流形数据集生成一系列环形路径以对其环结构进行近似描述;(c)生成数据集的一个近似最大无环子集;(d)基于所生成的近似最大无环子集实现环流形数据集的降维。实验表明:所提出的有关流形学习方法其有效性机理与应用事实完全相符,而且算法能够成功地应用于具有环形结构的数据集降维。(3)针对流形学习的非连通性问题,提出了两类可用于非连通流形数据集非线性降维的高效流形学习算法:通道算法与分解-整合算法。通道算法利用图论工具与微分几何知识,通过搭建非连通流形数据类间的光滑连接通道(由光滑的邻域片组成),且在连接通道上保持与流形类内一致的本质维结构,形成分布在全数据集上的光滑连通流形形态。相应的流形数据集(包括原数据集与通道数据集)使流形学习方法的有效性得以保证,从而有效地避免了非连通流形学习可能出现的短路、非连通与粗糙连接等问题。分解-整合算法将整个数据集首先按其流形类分解,并对每一子类形数据分别降维,然后利用类间关系对所得降维类分别进行定向与定位,并对其进行整合,从而获得原数据集的降维表示。所提出的新算法均能有效应用于非连通流形数据的降维,其性能均明显优于已有非连通流形学习算法。(4)针对流形学习方法中的数据邻域图构造与测地距离估训问题,提出了一种新的修正邻域图构造思想,并基于此思想发展了测地距离估计的一种更为精确的计算方法。在通常的局部线性假设下(即假设由数据与其近邻凸组合构成的局部邻域片位于本质流形面上),通过将传统的“点线”邻域图扩充为“点与邻域片”邻域图,从而实现了对流形形态的更精细刻画。基于修正的邻域图,进而提出了在相邻邻域片间优化计算两点间测地距离的思想,并由此建立起了一个更为精确的数据测地距离改进估计方法。实验表明:所提出的新方法计算精度更高,且并未本质增加算法的计算复杂性,可广泛应用于流形学习算法的实际应用中。(5)综合上述研究成果并集成已有流形学习算法,研发了一套流形学习应用系统。该系统具有模型自动选择、数据流形类型检测、不变量特征(主要针对测地距离)精确估计和针对不同类型数据自动选择降维方法等综合功能。系统不仅可直接应用于广泛数据的低维特征提取,也可方便地用作流形学习算法研究和比较的平台。所研发系统的突出特征是功能模块齐全和对用户的弱依赖性,从而方便应用。作为例子,我们对所研发的系统在各种类型的图像数据集上进行了测试,取得了令人满意的效果。
其他文献
<正>~~
会议
日益严苛的加工工艺对测量精度和速度提出更高的要求,传统激光共聚焦技术虽然能够实现较高的测量精度但在测量速度方面难以满足加工检测需求。彩色共聚焦技术免除了激光共聚
所谓置数是指在算盘相应的档位上拨算珠靠粱以表示具体的数值,所谓抄盘是指将计算结果抄写到题页上,报数是指将计算结果口头读出。对于位数较小的数字学生在置数,抄盘及报数时都
<正>近10年是招标代理行业高速发展的10年,同时是市场和政策环境剧烈变化的10年。2018年1月31日,国家发展改革委2018年第2号公告:自2017年12月28日起不再开展中央投资项目招
本文主要分析了金融危机时期商业银行的风险管理问题。
摘要:车辆图像分割是车辆检测系统中最基本也是最重要的环节,车辆图像分割的质量直接影响后续图像处理的精度和效率。自然光照环境下,满足准确性、实用性要求的车辆图像分割模
中国珠峰综合科考队的科学家们,日前在珠峰海拔6520米的东绒布冰川垭口,成功搭建起了一套自动气象观测站,这是目前世界上海拔最高的自动气象观测站。
LED全称发光二极管,而LED路灯的光学设计对LED灯的照明状态起着关键的作用。良好的LED路灯照明需要达到常规路灯的均匀矩形照射就必须对LED的配光设计和光源选择进行合理地分
最近几十年,服务市场在世界范围内不断增大,服务在经济中的主导性日益增强。服务业的迅猛发展及其经济贡献引起人们对服务业更多的关注。同时,制造企业的产品质量存在很大的"
本文分析了高技术产业的界定方法和我国高技术产业发展的现状,提出了我国高技术产业的集群式发展的战略及其实施策略。