论文部分内容阅读
子空间学习是机器学习领域的一个热门课题,被广泛应用于计算机视觉、分析化学、生物信息学等领域。对维度高、训练样本少的数据,常用的回归、分类模型经常出现过拟合、参数估计误差大等问题。然而,数据虽然是高维的,但是可能分布在一个低维的子空间上,在此低维子空间上对数据的回归或分类就能避免出现过拟合、参数估计误差大等问题。子空间学习是解决这个问题的一个重要途径。针对具体的回归、分类等任务,学习最优的子空间是子空间学习的核心问题。针对回归、分类等问题,研究者基于各种准则通过设计对应的目标函数以及对回归系数、投影向量的正则化方法提出了多种子空间学习模型,然而,由于具体问题的复杂性,如何根据具体的回归、分类任务设计目标函数以及回归系数、投影向量的正则化方法以得到最高的回归、分类准确度,仍然是子空间学习中的一个困难问题。本文的工作围绕子空间学习理论中设计最优的目标函数以及回归系数、投影向量的正则化方法的几个问题展开研究,集中研究了以最小化错误分类率、最小化均方误差为目标学习最优投影向量、数据之间具有相关性的子空间建模这三个问题。本文的研究内容及取得的成果包括以下几个方面:1.研究了线性分类问题中的最优投影向量的问题,提出了一种近似最优的线性判别模型。针对现有的线性判别分析模型没有考虑投影向量是否最优的、依赖于从样本中估计分布的均值和协方差矩阵等问题,在数据服从Laplacian分布的情况下,分析了最小错分率意义下求最优投影向量的准则,并给出了鲁棒的线性判别分析模型及线性规划求解方法。该模型依赖于中值和平均绝对偏差的估计,比均值和协方差矩阵的估计要鲁棒,适合训练样本较少、有噪声或异常点的情况。在服从高斯分布、Laplacian分布、有属性缺失的高斯分布的数据上的仿真实验显示该模型都具有较好的分类效果。2.研究了线性回归问题中的最优投影向量的问题,提出了一种近似最优的偏最小二乘模型。针对特征有噪声的情况,分析了均方误差与投影向量的关系,给出了基于偏最小二乘框架提取最优投影向量的回归模型。并进一步提出了一种近似最优模型,给出了基于广义特征值分解的模型求解方法。标准库上的实验显示该模型具有更小的预测误差,且使用了更少的隐藏变量。3.研究了对不同样本之间的相关性、同一样本不同特征之间相关性的联合建模问题,提出了基于回归框架的多任务多视角学习模型以及对应的核多任务多视角学习模型,给出了显示求解算法。并将该学习模型应用到视频跟踪问题中,通过该模型实现了对视频相邻帧之间的相关性、多种特征的相关性性的联合建模,在多个标准数据库上的实验结果显示该方法在实时性、跟踪精度与现有方法比有明显提高。