论文部分内容阅读
随着互联网技术的迅速发展,高维数据的存在给机器学习任务带来了各种挑战。首先,处理高维度数据往往时间复杂度高、计算量大。其次,数据维度过高使得模型需要学习的参数多,容易引起过拟合。此外,高维数据还容易产生“度量集中”效应,即部分样距离与其最近和最远的样本间的距离趋于相等,使得常用的相似性度量方法不再适用。鉴于高维数据带来的种种难题,数据降维方法的提出十分有必要性。对于特征空间而言,特征选择是一种较为有效的降维方法,通过从原始特征集中选择出最有代表性的特征子集来代替原始特征集,从而实现特征空间降维的目的。对于高维标签空间而言,降维的方法与特征空间降维类似,可以使用基于标签选择或者标签空间转换的方法实现。此外,数据降维的方法也面临着各种复杂环境的难题。如在无监督特征选择中,由于没有数据标签的存在,特征的选择过程缺乏指导性,使得学习任务极具挑战性。在有监督特征选择中,传统的多标记特征选择方法往往要求标签矩阵完整。但是由于人工标注成本极高,再加上某些标签之间存在一定的模糊歧义性。因此,标签缺失的情况普遍存在。除了特征空间中存在维度灾难,标签空间中也存在纬度过高的问题。若直接使用传统的分类器进行样本标签预测,则所需时间复杂度正比于标签数量,对于训练算法而言难以承受。针对于特征空间和标签空间的复杂数据环境,本文提出了三种数据降维方法,主要研究成果可以分为如下几个方面:1.本文提出了一种基于协同正则的无监督特征选择方法,该模型同时考虑了数据分布、数据的重构能力以及数据的流形结构。此外,我们在权值矩阵上添加了组稀疏约束,以保证能够选择出最具有代表性的特征。2.针对于缺失标签环境下的多标记特征选择,我们通过线性回归模型在恢复缺失标签的同时实现多标记特征选择。模型中还考虑了流形正则项,使得在原始空间相似的样本在新的空间中的距离仍然能够得到保持。3.针对于标签空间维度过高的情况,我们基于字典学习得到特征空间和标签空间共有的低维隐空间,从而实现标签空间的降维。