高维小样本数据的SCAD回归 ——基于Bayesian bootstrap抽样和带随机权重的蒙特卡罗方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ganglei2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据规模的迅速增长和数据特征的多样化使得数据分析高速发展,也使得数据分析需要处理的对象越来越复杂,进而需要更多的变量特征来描述这些复杂的对象,也就产生了高维数据.在高维问题中,财务经费和伦理道德等原因又使得观测样本量往往远小于高维数据的特征维数,而且普遍存在于医学、生物遗传学、军事学等众多领域.本文研究小样本下高维线性回归模型中的变量选择问题和模型预测能力.利用传统的变量选择方法SCAD(the smoothly clipped absolute deviation)和LASSO(least absolute shrinkage and selection operator)分析处理高维小样本问题,再结合Bayesian bootstrap和带随机权重的蒙特卡罗模拟,提出两种混合集成方法.方法一:基于Bayesian bootstrap抽样的SCAD压缩方法.基本思想是通过Bayesian后验为Bootstrap抽样添加随机权重,以此来扩展观测样本量,然后通过SCAD方法对新样本进行处理,利用多次抽样得到的回归系数估计取中位数或取平均值作为最终的回归系数估计;方法二:基于带随机权重蒙特卡罗模拟的SCAD压缩方法.基本思想是以均值为1的随机数作为权重添加到原观测样本中作为一个新的观测样本集,然后通过SCAD方法得到回归系数估计作为一次模拟,重复多次模拟,对其取中位数或取平均值作为最后的回归系数估计.仿真分析和实证分析均表明,当变量维数p远大于观测样本量n时,方法一和方法二受随机干扰影响较小,而且它们不但继承了SCAD的变量选择能力,在模型预测方面也优于SCAD和LASSO方法,在观测样本量较小时优势格外明显.
其他文献
第一部分长链非编码RNA MZF1-AS1与神经母细胞瘤进展密切相关目的:寻找与人神经母细胞瘤进展相关长链非编码RNA(lnc RNA),评估其在神经母细胞瘤细胞系中的表达和定位,并阐明MZF1-AS1在神经母细胞瘤中的作用。方法:通过解析GEO公共数据库,寻找与人神经母细胞瘤患者临床指征相关的长链非编码RNA,并检测lnc RNA在神经母细胞瘤中的表达水平与生存的相关性。同时,应用实时定量PCR
在二代测序技术的推动下,宏基因组学的研究在广度和深度上都发生了巨大的变革,带来了宏基因组数据井喷式的增长,因此也给机器学习方法在该领域带来了极大的用武之地。人体肠道宏基因组数据具有小样本量、高维度、与宿主关系复杂的特点,在疾病相关的生物特征筛选以及构建疾病预测模型方面,存在以下问题:(1)对于受年龄、性别等因素影响较大的疾病如结直肠癌的宏基因组研究中,当前的特征筛选过程并没有考虑此类混淆因素的影响
随着5G技术的普及,无线通信技术将会更加深入的影响到人们的生活。天线,作为其中的关键部件,其电磁性能受到制造精度的限制,因此,利用智能制造技术对天线样件加工质量进行预测研究,实现天线加工的智能化生产对通信领域的发展具有重要意义。基于以上问题本文针对高频元件在精密铣削过程中的加工质量预测进行研究,主要内容如下:首先,基于高频元件的结构特点、材料特性以及加工特点对高频元件的加工尺寸误差进行了影响因素分
第一部分内质网应激介导的凋亡和自噬在PBDE-47致雌性大鼠发育神经毒性中的作用目的:2,2’,4,4’-四溴联苯醚(2,2’,4,4’-tetrabromodiphenylethe,PBDE-47)是毒性较强的多溴联苯醚(polybrominated diphenyl ethers,PBDEs)同系物之一,其所致发育神经毒性已引起了人们的关注,但其作用机制尚未完全阐明。本部分研究旨在明确内质网应
科学研究应坚持“四个面向”,其中面向人民生命健康的指导思想指出要把全民健康摆在优先发展的战略地位。因此,与“健康中国”相关的研究具有重大意义。超声在疾病治疗和诊断中发挥着重要作用,而超声医疗最核心的超声换能器普遍采用基于压电效应的电驱动器件,它存在复杂的电连接、电磁干扰等问题。最近,基于光声效应的光致超声换能器被广泛关注,它具有无电连接、抗电磁干扰等特点。光致超声换能器主要由光吸收材料和聚二甲基硅
智能语音作为一种新型的人机交流方式已经得到广泛的应用。最近的研究表明,基于深度神经网络的语音识别系统容易受到对抗样本的攻击而出错,研究这些攻击方法不仅有助于发现深度学习模型训练过程中可能存在的潜在问题,而且可以推进深度学习理论方面的研究。现有的语音攻击方法中,白盒攻击方面主要依靠基于优化的算法,黑盒攻击方面主要依靠遗传算法,然而这些方法不仅需要大量的计算资源,而且攻击效果不够理想。例如,一是这些方
因没有电刷和滑环装置,无刷双馈感应发电机可以运行得更加稳定和可靠,有望成为未来几年独立发电模式的主流电机之一。功率绕组电压频率和幅值的稳定性是独立发电模式下的主要控制目标。同时,独立发电系统对异常工况非常敏感,特别是不平衡和非线性负载会导致功率绕组电压和电流产生严重不平衡和畸变。功率绕组电压中负序分量通常代表不平衡负载的影响,而3、5和7次谐波分量则代表非线性负载的影响。本文分别提出了负序电压补偿
近年来,食品污染对人类健康造成极大的威胁,食源性病原体是导致疾病发生的直接原因之一。食源性病原体会产生特定的挥发性生物标记物,金属氧化物半导体(MOS)气体传感器能对其进行实时有效监测,从而及时预警,降低人类感染致病菌的风险。本文选取李斯特菌产生的标记物二甲基三硫(C2H6S3)作为被检测气体,对纳米WO3的微结构(晶面及缺陷)进行调控,建立了材料微结构与气敏性能之间的构效关系。同时,将密度泛函理
活体光学分子成像不仅可以长时程在体追踪细胞的迁移、聚集和接触等动态行为,还可以直观地呈现细胞内分子信号的动态变化,为在体研究细胞功能提供有力的工具。肿瘤免疫疗法利用免疫系统可以识别并清除肿瘤这一特性来治疗肿瘤,在临床上表现出独特的优势。细胞毒性T淋巴细胞(cytotoxic T lymphocytes,CTL)是免疫系统中杀伤肿瘤细胞的主要效应细胞,在清除肿瘤过程中发挥着关键作用。肝脏作为一个具有
大学英语教科书是培养跨文化交际力和实现跨文化理解的重要载体。大学英语教科书如何阐释和建构他者,对塑造大学生的他者文化观,引导大学生如何看待他者,与他人相处,形成跨文化理解力具有不可替代的作用。研究大学英语教科书中的“他者”变迁不仅有利于推进批判教科书研究中有关“他者问题”重要议题的研究,对认清大学英语教科书中的他者内涵,理解大学英语教科书文化变迁的本质,改进大学英语教科书文化选编现实,实现大学英语