论文部分内容阅读
数据降维是机器学习的一个重要的研究分支。它在理论研究与算法实现都取得了重大进展,成为当前机器学习领域的前沿热点课题。作为数据降维的一种常用工具,隐变量模型越来越受到人们的关注,本文围绕隐变量模型在降维方面的应用进行建模和算法研究,主要做了以下几个方面的工作:(1)提出了一种基于局部保持的隐变量模型建模。首先,该模型借助了保局映射的局部保持性质,对模型中的隐变量进行约束,将保局映射的目标函数作为低维空间中数据的先验信息;接着利用Bayes定理得到隐变量的后验概率;最后通过最大化后验概率的方法确定隐变量,从而建立了局部保持的隐变量模型,克服了非线性核映射建立的高斯过程隐变量模型不能保持数据空间局部结构信息。实验结果表明,相比较原有的隐变量模型,本文提出的方法有很好的保持数据局部结构的效果。(2)提出了加权的高斯过程隐变量模型。由于高斯过程隐变量模型是一种无监督的隐变量模型,并且它假设观测样本各维是独立同分布的。为了提高它的判别性和凸出观测样本不同维对于分类的贡献,本文提出了两种加权的高斯过程隐变量模型:基于判别特征加权的高斯过程隐变量模型和基于局部保持的加权隐变量模型。前者利用线性判别分析对样本进行变换,得到判别权值,建立一种基于判别特征加权的隐变量模型;后者利用局部Fisher判别分析提取特征,建立一种基于局部保持的加权的隐变量模型,该模型在增强判别性的同时还可以保持数据类内的局部结构信息。实验结果表明,两种加权模型能够利用监督信息,增强隐变量模型的判别性。(3)提出了监督高斯过程隐变量的回归模型和分类模型。回归模型是借助于高斯过程回归建立了从隐空间到回归输出空间的关系,并利用隐变量模型的降维特性,去除数据的冗余信息,从而得到精确的回归结果。分类模型是先将数据的类标转换成矩阵形式,然后借助于隐变量模型的条件独立性,分别建立从隐变量到观测数据和类标数据的非线性映射,得到基于隐变量的监督分类模型。实验结果表明了本文提出的回归算法和分类算法的有效性。(4)提出了一种半监督隐变量模型。数据的类标信息非常有限,而且对数据进行标记需要大量的人力物力。相对于类标信息,成对约束信息更容易获得。本文基于成对约束信息,提出了一种半监督隐变量降维模型。通过把高维观测数据的成对约束信息传递到隐空间,转化为对低维隐变量的约束,从而建立基于成对约束的半监督隐变量模型。在大量的数据库上的实验结果表明了该算法的有效性。(5)以散度分析为工具,提出了一种迁移隐变量模型。首先通过Bregman散度,度量训练样本和测试样本间的距离,然后利用两个集合间的散度来调整原有模型的参数,建立迁移隐变量模型,可以解决样本来自不同分布或者交叉域的问题。该方法不需要对原有模型重新训练,从而增强了隐变量模型的泛化学习能力。在手写数字数据集和人脸数据上的实验结果表明了该迁移学习的隐变量模型的优势。