高维多重共线性数据特征筛选

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:sncyk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,在金融、气象预测、基因研究等一些领域中,统计学家常能够收集到高维数据。但由于维数过高,传统的统计分析方法和变量选择方法变得不再稳健和难以适用。并且还有其他的难题需要去克服,例如当误差分布为厚尾分布时,它们的效率都普遍较低甚至它们会变得无法适用;还有当自变量间存在严重的多重共线性时,这也会严重干扰到变量选择方法的筛选效果。为了克服多重共线性,本文突破性地提出能够应对存在多重共线性高维线性数据的稳健的高维特征筛选法。本文的主要工作如下:第一章阐述了在面临高维数据时变量筛选的研究现状与历史,并且对一些常用特征筛选方法进行了回顾和学习,最后对本文的内容安排和创新点进行了说明。第二章中提出一种针对多重共线性的高维特征筛选法,可处理存在多重共线性这类型的高维数据。当下很多针对高维线性模型的研究都是基于单一的边际效应下进行的,变量的筛选依赖于变量之间相互独立,这使得当存在变量间存在多重共线性时可能导致变量筛选的不稳定性,本文通过引入净效应的这一概念,让自变量的净效应替代其边际效应,提出一种基于全局影响的特征筛选方法,这使得其筛选方法的适用范围更广,并进一步通过证明得到了确定筛选性质。第三章通过数值模拟和实例分析中与其他筛选方法比较的结果说明了推广后的筛选方法更具稳定性。第四章总结了本文所提出的特征筛选方法,并对可以进一步地去研究的方向进行展望。
其他文献
山西沁水盆地上第三系杂色粘土是一种特殊的中等膨胀土,在黄土-第三系粘土层界面第三系粘性土失水开裂,为雨水入渗提供优势通道,遇水软化,在开挖卸荷、堆填加载和水动力作用
近年来,随着经济的快速发展,水污染问题越来越严重,已经严重影响了人类的生存安全,严重阻碍了人类健康、经济和社会的可持续发展。纳米零价铁在地下水污染的原位修复中具有较
氧化亚铜(Cu2O)薄膜在光伏电池和光电化学分解水等太阳能转换应用方面具有很大的潜力。在应用恒电势沉积法进行长时间制备Cu2O薄膜时,其半导体导电性随着沉积的进行从p型导电转
我国铝土矿资源储量丰富,每年资源消耗量也十分巨大。随着我国铝土矿需求量日益增长,且国内高品位铝土矿资源日趋枯竭,通过预脱硅手段提高低品位矿铝硅比,使之可用于拜耳法生
在企业职工基本养老保险领域,法定退休年龄一直是人们关注的焦点,现行的男性60周岁,女干部55周岁和女工人50周岁的法定退休年龄,可以追溯到上世纪50年代关于法定退休年龄的规
随着我国经济社会的不断发展,地方政府在国家治理现代化进程中扮演着日益重要的角色。在既有官员晋升体制下,政府往往通过获得地区经济发展成果以提升政绩,这使得地方对财政
随着社会对可持续能源的需求日趋增长,对导电性与机械性能兼具的凝胶聚合物电解质研发显得尤为重要。固态电解质相较于传统的液体电解质有很多不可替代的特性,例如不易泄露,
目的:研究乔松素(Pinocembrin,PIN)预处理对肝缺血再灌注损伤(hepatic ischemia reperfusion injury,HIRI)的保护作用及可能的分子机制。方法:实验分为体内实验和体外实验两部分构成。第一部分为体内实验:(1)建立小鼠肝缺血再灌注模型:选取40只8周龄的C57小鼠,用血管夹阻断肝左叶与中叶的血流造成70%的肝缺血,建立肝缺血再灌注损伤模型;分为假手术组
利用MERRA-2再分析资料和CALIPSO星载激光雷达产品,分析了1980-2017年青藏高原和塔克拉玛干沙漠上空沙尘气溶胶的分布和传输特征。MERRA-2分别与AERONET和MISR的气溶胶光学厚
随着科技的进步,在农业转型升级这一过程中,以人力、畜力劳作的传统农业慢慢被以大规模的机械化耕作为主的现代化农业所替代,这也是我国加快实现农业现代化国家的必然之举。