超高维数据的特征筛选研究

来源 :南京信息工程大学 | 被引量 : 7次 | 上传用户:hdiell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集技术的快速发展,很多领域的研究者可以用较低的成本获得超高维数据,例如基因组学,功能磁共振成像,X线断层摄影术,金融等领域.然而,许多降维方法和变量选择方法受困于计算成本、统计精度和算法稳定性,并不能解决超高维问题.自从基于线性模型的准确独立筛选(sure independence screening,SIS)过程被提出来以后,统计学家提出了许多各具特色的特征筛选方法,它们适用于不同的统计模型以及不同类型的数据.超高维判别分析以及超高维线性模型是超高维特征筛选研究中的两个常见且重要的问题,仍然具有很大的研究空间.  首先考虑超高维判别分析中的准确特征筛选问题,本文基于预测变量样本秩的条件数学期望和无条件数学期望的差异,提出了一种新的筛选指标,称之为稳健秩筛选.基于一些假设条件,本文证明出新的特征筛选过程具有准确筛选性质.新的筛选方法具有以下五个特点.第一.该方法对于预测变量是重尾分布、存在潜在异常值的情形以及样本量极端不平衡的情形具有稳健性.第二,它是一个模型自由的筛选过程,不需要任何具体参数模型的设定.第三,本文提出的筛选过程可以直接应用到响应变量具有多个类别的情形.第四,稳健秩筛选指标中使用了示性函数,这大大简化了理论推导,因为示性函数构成的最终统计量是有界的.第五,本文提出的筛选标准具有简单的结构,这决定了筛选过程的计算成本是很低的.最后,蒙特卡罗模拟和实例分析被用来验证有限样本下稳健秩法的效果.  接着,本文考虑带有多元响应变量的超高维线性模型的特征筛选.本文考虑多元响应变量张成的线性空间,而不是将每一个响应变量进行单独考虑.基于投影理论,本文将每个自变量投影到多元响应变量张成的线性空间上,提出了一个新的投影筛选(PS)过程,并在一定约束条件的基础上证明了准确筛选性质.SIS指出,超高维线性模型的边缘特征筛选会遇到三大困难:与重要变量高度相关的不重要变量有很大的概率被选进模型;重要变量可能与响应变量边缘不相关,但是与响应变量联合相关;协变量之间可能存在的多重共线性.为了解决以上困难并加强PS筛选的效果,本文进一步提出了迭代投影筛选(IPS)过程.本文利用蒙特卡罗模拟来评价PS和IPS在有限样本下的效果,并通过一个真实数据的实例分析来说明PS和IPS在应用中的有效性.
其他文献
本文主要利用中心流形理论与Faria和Magalhaes规范型方法,从理论和数值模拟两个方面研究了时滞耦合van der Pol振子模型和时滞Oregonator振子模型。  (一)研究时滞耦合van der
脉冲微分系统的研究始于20世纪60年代,该理论已经渗透到信息科学、控制系统、生命科学等众多领域,具有非常重要的理论意义和实际应用价值.本文主要利用不同的方法,如变分Lyap
Burr分布自1942年诞生以来,在社会科学、经济科学、保险精算等诸多领域得到了广泛的应用,引起了人们越来越多的关注,而参数估计是统计推断的重要内容。因此,研究Burr分布参数的估
由于实际问题的复杂性,在大量统计问题中,需要在某些约束条件下对模型进行回归分析,因此对带约束的线性模型的研究就很有应用价值和意义。约束估计问题已经引起了人们的广泛关注
在经典风险模型以及许多推广的风险模型中,随机变量的独立性是一个重要的假设。而在实际中,这个假设条件过于理想化,由于可能引发风险业务的共同因素的存在,使风险模型中的不同随机变量之间可能具有某种相依性。因此,与经典风险模型相比,研究相依风险模型显得更具有现实意义。本文运用概率论和随机过程等理论对四种相依风险模型的破产概率进行了研究:(1)将索赔计数过程独立的双险种风险模型推广为索赔计数过程相依的双险种
随着经济和科技的迅猛发展,互联网络与人们的关系越来越密切,对于网络的各项研究备受人们的关注,其中对于可靠性和容错性的研究已经是国内外的研究热点之一.对于大规模网络的可靠
在金融领域里,虽然VaR是一个被广泛应用的风险度量,而且巴塞尔协议规定金融机构利用VaR来刻画金融风险和做相应的风险管理,但是在实际应用中,VaR却存在着一些不足之处.为了弥补VaR的不足,有学者提出条件风险值CVaR(Conditional Value-at-Risk),而且P?ug[1](2000)指出可以将CVaR看成某一最优化问题的解,即损失变量X的置信水平为(1 ?α)%的CVaR可定义
脉冲微分系统是上世纪八十年代初开始兴起的一门新的数学分支,它的稳定性分析已成为非线性动力学理论研究的一个重要方面,也是当前国际上非线性动力学系统研究的热点和难点之一
目前国家大力推进职业教育,优秀技工人才的培养是大势所趋,是国家全方面建设发展的坚实基础.如何将技工类院校学生培养成为优秀的劳动者,是摆在现实面前的一个难题.将学生培
随着技术的发展,制造业及工业生产对曲线、曲面精度的要求不断提高,建模及动画特效对计算速度也达到了更高的要求。传统的插值样条增减节点困难,不易于后期处理,拟合算法精度