论文部分内容阅读
流形学习是近年来机器学习的热点问题之一,其目的是要发现嵌套在高维空间中的低维流形。本文针对流形学习研究中存在的几个不足,即:1)如何适合地度量流形问的距离;2)如何有效地发现并展开高维数据中的非线性流形结构,并利用流形展开进行判别分析;3)如何发现并还原流形的内在维数,使数据在对应的子空间中准确反映流形的内在结构;4)如何利用核方法扩展半监督流形学习,提出了以下理论和算法:●提出了一个基于切距离且具有较强判别能力的流形间度量学习算法Tangent Distance Invariance Fused with LDA(TDIFL)。该算法利用流形上的切空间逼近真实流形,并利用这些切空间逼近流形间的距离。同时提出一个数据原型学习算法,该算法的条件收敛性得到了理论上的保证。●提出了一个保持黎曼流形上点点间测地线距离的流形学习算法Tensor based RIemannian Manifold distance Approximating Projection(TRI-MAP).该算法通过优化非凸目标函数的一个凸上界来得到目标函数的一个近似解,从而使非线性流形上的点能够很容易地映射到平坦的子空间中。基于多重线性张量相关理论,我们把算法推广为一个可以对任意阶张量数据进行维数约简的算法,同时证明了算法的收敛性。●提出了一个基于图嵌入框架的能够自动确定最优子空间维数的算法Multi-li-near Tensor-based learning without tuning Parameters(MTP),并理论上证明了图的拉普拉斯矩阵和自动确定最优子空间两者间的关系。●提出了一个基于流形的半监督核学习算法Efficient Non-PArametric Kernel Learning(ENPAKL)。该算法利用数据流形和半监督中流形的假设,把半监督流形学习的问题整合到核学习的框架上。算法以图嵌入为目标,通过加入一些半监督信息和描述流形光滑性的正则化因子来实现半监督核学习。同时提出了一个快速求解目标函数的算法,算法的正确性从理论上得到了保证。最后,除了理论方面的研究外,我们也通过大量实验,包括步态识别,人脸识别等生物认证和半监督聚类实验,验证了我们算法的性能。