响应变量缺失下的特征筛选和模型的参数估计

来源 :云南大学 | 被引量 : 0次 | 上传用户:zhuguangxinli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据收集技术的快速发展,很多领域的研究者用较低的成本可以获得大量的超高维数据,在超高维数据分析中,预测变量的个数p随着样本量n的增加呈指数增长,但只有少数预测变量对响应变量有显著影响,这一点已经众所周知.为此,统计学家们提出了许多边际特征筛选的方法.但是在实际应用中,由于各种原因,缺失数据经常出现在经济学、社会学、生物医学、市场调研等很多领域中,近年来,缺失数据模型的统计推断引起了许多学者的关注.很多经典的统计方法和理论都建立在完全观测数据分析的基础上,不能直接应用到缺失数据模型的统计推断.对缺失数据进行统计分析最常用的方法有基于完全观测数据的方法,插补方法,似然方法,逆概率加权方法等.如何在缺失数据的背景下将超高维数据中预测变量的维数大幅度降至中等规模,然后建立模型并进行参数的估计是需要解决的一个重要问题.为此,在响应变量缺失框架下,本文研究了超高维数据下的特征筛选,广义部分线性单指标模型的参数估计以及数据存在异常值时的稳健估计.其主要内容包括:1.讨论了响应变量带有随机缺失的超高维数据的特征筛选问题.提出了一种新的非参数特征筛选方法,通过条件边际插补Spearman秩相关关系来识别重要特征.所提的非参数筛选方法不需要假定预测变量和响应变量之间任何的回归形式,也不需要为缺失数据机制模型指定参数化模型,而且对异常值和重尾数据具有稳健性.在一些正则条件下,证明了所提出的特征筛选方法具有确定筛选性质和秩相合性.模拟研究和扩散性的大-B-淋巴瘤细胞实例数据分析都表明,所提的非参数筛选过程优于现有的几种无模型筛选过程.2.研究了响应变量不可忽略缺失下广义部分线性单指标模型的参数估计.考虑半参数逻辑回归模型作为响应变量缺失机制.结合局部似然方法和倾向得分方法,提出了一种基于截面加权估计方程(WEE)的广义部分线性单指标模型的参数和非参数估计方法.基于截面原理,利用核回归方法对非参数部分进行估计,广义矩方法对参数进行估计,并给出了估计量的渐近性质.模拟研究验证了所提方法的有效性和可行性.3.研究了在响应变量随机缺失且协变量和响应变量中都存在异常值时回归参数的有效估计.首先,构建一个加权的拟似然函数,对缺失机制模型中参数进行稳健估计.其次,利用Tukey’s biweight函数的一阶导函数,基于逆概率加权和重新下降的思想,建立了包含感兴趣未知参数的无偏估计方程组(即能处理缺失数据还能处理异常值),使用广义矩估计方法对感兴趣参数进行估计.再次证明了估计量的相合性和渐近正态性.模拟研究和实例分析都表明,响应变量随机缺失且协变量和响应变量中都存在异常值时,该方法具有良好的表现.
其他文献
二维材料具有较大的比表面率和大量的不饱和原子在物理、化学、材料科学等领域具有重要的应用。目前,湿化学合成因其强大的可控性,被认为是制备尺寸和厚度可控的二维纳米材料的一种方便、可重复的方法,具有良好的工业应用前景。但是,对其合成过程大多数是基于非原位研究,往往都是猜测,并未有直接证据。因此,采用原位手段表征方法获取信息对于深入认识二维材料的生长机理及其动态转化过程在指导精准控制合成二维材料领域有着重
自20世纪60年代微电子学取得突破性进展以来,微型化成为了一种新的发展趋势,对科学和技术的所有领域产生了巨大的影响。在分析化学中,色谱系统的微型化已经成为分离科学的一个关键趋势,其中纳流液相色谱作为高效液相色谱的微型化,具有溶剂和样品消耗少、色谱稀释效应小、与质谱联用更为友好等优点,使得纳流液相色谱在生物医药、食品和环境分析等领域得到了广泛的应用。液相色谱微型化的重要标志是色谱柱的微型化,因为色谱
在多媒体技术高速发展背景下,视频监控被广泛应用于公众场合,行人再识别也成为了当前计算机视觉和模式识别领域的研究热点。行人再识别旨在解决监控场景下的跨摄像头行人识别与检索任务。其中,如何降低模型的过拟合风险,如何学习具有相机不变性的行人视觉表达,如何提升模型在跨场景下的性能,如何有效利用无标注数据,是行人再识别在复杂监控场景下的四大关键难题。本文针对这四个关键难题开展相关研究工作,主要围绕数据增强、
现如今,等离激元光学已经成为非常有前景的、涉及多个学科交叉的研究领域和技术前沿。随着微纳加工技术和化学合成技术的不断发展,人们可以在纳米尺度上对结构的组成单元、几何参数和空间分布进行调控。在复杂的等离激元微纳结构中,等离激元谐振模式会同结构或谐振腔内的其它光学模式相互耦合形成新的谐振模式。通过对结构的设计和对参数的定向优化,这些谐振模式会具有更加新颖的光学效应和共振特性。例如,更低的损耗,更强的局
在室内或地下多层封闭场景因无法获取全球导航卫星系统(GNSS)信号,导致精确的导航与位置服务应用面临困难与挑战。与源自机器人技术的基于视觉的同步定位与测图(Visual SLAM)算法相比,基于激光雷达的同步定位与测图(LiDAR SLAM)算法因其不受室内场景光照条件影响,成为一种室内导航与位置服务应用的可行手段。近几年,采用低成本双激光雷达传感器与全景数码相机配置的激光雷达背包,展示了其在室内
红外光谱仪是利用物质对不同波长的红外辐射的吸收特性,进行分子结构和化学组成分析的仪器,根据分光装置的不同,分为色散型和干涉型。目前,实验室普遍使用的都是体积较大和价格高昂的台式干涉型傅里叶红外(Fourier Transform Infrared,FTIR)光谱仪。小型化和低成本是当前红外光谱仪发展的的一个主要趋势。更快速、更可靠、更低廉的便携式红外光谱仪有可能在未来进入家庭市场,满足人民对居住环
随着人类对电脉冲的认识与应用的不断发展,电脉冲对于生命体产生的影响受到越来越广泛的关注。其中,短脉宽电脉冲由于其频率高,强度大等特点,能够有效穿过细胞膜,作用于细胞内部,因此,对于不同参数电脉冲引起的细胞内效应及其应用成为近年来生物电磁领域的研究热点。目前,短脉宽电脉冲已经能够作为一种直接或者间接的治疗手段,对多种疾病,特别是肿瘤进行治疗。然而,目前对于其作用效果的研究依然不够深入,并且在肿瘤治疗
近年来,随着全球老龄化趋势加剧、人口的剧增、社会生活环境的改变等因素使得全球癌症的发病率和死亡率呈快速上升的趋势,全球癌症负担进一步加重。据2018年全球癌症流行病学统计数据显示,2018年全球癌症新发病例高达1810万,死亡病例高达960万。因此,对癌症的早诊、早治和综合干预已成为现阶段全球在癌症防控领域的重要任务。传统的癌症治疗手段,如化疗和放疗等存在副作用大、无法有效控制晚期恶性肿瘤的进展和
学位
和频光谱(sum frequency generation,SFG)是二阶非线性光谱,具有表界面选择性和较好的时间分辨能力,被广泛用于研究表界面物种吸附、取向、排列方式及振动弛豫等结构和动力学信息,也可以研究界面电子结构、界面电荷转移等界面电子信息。硫化镉(CdS)是宽带隙直接半导体材料,可被用作降解木质素等生物大分子光催化剂。以2-苯氧基-1-苯乙醇(2-phenoxy-1-phenyletha