复杂数据环境下的降维方法

来源 :天津大学 | 被引量 : 0次 | 上传用户:benson55
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,高维数据的存在给机器学习任务带来了各种挑战。首先,处理高维度数据往往时间复杂度高、计算量大。其次,数据维度过高使得模型需要学习的参数多,容易引起过拟合。此外,高维数据还容易产生“度量集中”效应,即部分样距离与其最近和最远的样本间的距离趋于相等,使得常用的相似性度量方法不再适用。鉴于高维数据带来的种种难题,数据降维方法的提出十分有必要性。对于特征空间而言,特征选择是一种较为有效的降维方法,通过从原始特征集中选择出最有代表性的特征子集来代替原始特征集,从而实现特征空间降维的目的。对于高维标签空间而言,降维的方法与特征空间降维类似,可以使用基于标签选择或者标签空间转换的方法实现。此外,数据降维的方法也面临着各种复杂环境的难题。如在无监督特征选择中,由于没有数据标签的存在,特征的选择过程缺乏指导性,使得学习任务极具挑战性。在有监督特征选择中,传统的多标记特征选择方法往往要求标签矩阵完整。但是由于人工标注成本极高,再加上某些标签之间存在一定的模糊歧义性。因此,标签缺失的情况普遍存在。除了特征空间中存在维度灾难,标签空间中也存在纬度过高的问题。若直接使用传统的分类器进行样本标签预测,则所需时间复杂度正比于标签数量,对于训练算法而言难以承受。针对于特征空间和标签空间的复杂数据环境,本文提出了三种数据降维方法,主要研究成果可以分为如下几个方面:1.本文提出了一种基于协同正则的无监督特征选择方法,该模型同时考虑了数据分布、数据的重构能力以及数据的流形结构。此外,我们在权值矩阵上添加了组稀疏约束,以保证能够选择出最具有代表性的特征。2.针对于缺失标签环境下的多标记特征选择,我们通过线性回归模型在恢复缺失标签的同时实现多标记特征选择。模型中还考虑了流形正则项,使得在原始空间相似的样本在新的空间中的距离仍然能够得到保持。3.针对于标签空间维度过高的情况,我们基于字典学习得到特征空间和标签空间共有的低维隐空间,从而实现标签空间的降维。
其他文献
铁路发电车柴油消耗一直是客车车辆单位的主要能耗,其在客车运用成本管理中十分重要,支出占比较高。长期以来,各客车车辆单位均用“公斤/千辆公里”作为财务预算下达、成本控
介绍一种双钢轮压路机铰接机构及其操纵控制方法,能够实现双钢轮压路机在直线行驶状态与蟹形行驶状态间的自动切换,具有方便、快捷、易于控制等特点。该铰接机构采用双铰接方
太—焦线是高坡重载区段,冬季环境温度低且长治北与月山温差较大,根据SS4改型电力机车冬季运用实际情况,结合低温温差现象和现有防寒措施进行了具体分析,提出了二次防寒措施
由于氟化物具有非常低的声子能量和高化学稳定性,是上转换发光材料理想的基质材料,尤其是Yb3+/Er3+或Yb3+/Tm3+掺杂的NaYF4为最有效的上转换发光材料之一。稀土掺杂的上转换
目的建立一种客观公正的医学期刊质量评价指标体系,同时为制定《评审卫生高级专业技术资格医学卫生刊物名录》提供依据。方法将德尔菲法和引文分析法相结合,筛选出浙江省内10
目前,大学生就业中存在的区域性人才供需失衡十分严重,如何有效的为中西部地区以及中小城市留住人才成为协调社会入力资源的关键。从县级市入手,发掘出在县级市就业的毕业生三大
西方国家为应对日益突出的军事环境问题的挑战,建立了军事环境管理体系,协助军事管理,提升军事活动的可持续性和军队的作战能力.本文回顾了军事环境管理体系发展历程,介绍了
在新兴产业背景下,职业院校加强对学生的职业培养是非常必要的,不仅可以让学生顺利走向工作岗位,还可以为企业输送合格的人才。当前职业院校在培养人才发展方面存在很多问题,
目的:探析临床路径在小儿肺炎护理中的应用效果。方法:选取该院收治的112例小儿肺炎患儿为研究资料,随机分为两组,每组56例。对照组给予常规护理,观察组给予临床路径护理,对