缺失数据模型的估计与变量选择

来源 :云南大学 | 被引量 : 1次 | 上传用户:wwwman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失数据的统计分析一直都是统计学研究的热点课题.当数据的缺失机制为随机缺失时,已有很多统计方法可处理和分析这类缺失数据.然而,在实际应用中,常常遇到不可忽略缺失数据.这样,基于随机缺失的统计分析方法将不再适用于处理不可忽略缺失数据.同时,在计量经济学、生物医学和社会学等领域常常遇见大量的高维不可忽略缺失数据,如何处理和分析这类数据尚未见有报道,因此该课题值得研究.本文在不可忽略缺失数据下,研究了超高维分位数回归模型的估计与变量选择问题,并研究了响应变量的分布函数和分位数的估计问题以及非线性回归模型的经验似然推断问题.同时,在随机缺失数据下,研究了乘性回归模型的估计与变量选择问题.具体地,本文的主要研究工作概括如下.1.研究了响应变量不可忽略缺失下超高维分位数回归模型的惩罚估计问题.通过运用惩罚函数SCAD和MCP,提出了基于逆概率加权的惩罚分位数回归估计方法.在倾向得分函数存在稀疏性的情况下,提出了估计倾向得分函数的两步方法:第一步通过构造Pearson卡方检验统计量筛选倾向得分函数中的重要变量;第二步通过运用调整经验似然方法估计筛选后的倾向得分函数中的未知参数.在一些正则条件下,证明了参数估计量的Oracle性质.模拟计算和实例分析验证了所提出方法的有效性和可行性.2.研究了带有不可忽略缺失数据的分布函数和分位数的估计问题.首先,在倾向得分模型为指数倾斜模型的情况下,提出了估计模型参数的调整经验似然方法.该方法的一个显著优点是能够保证校准条件中倾斜参数解的存在性.进一步地,在响应变量不可忽略缺失下,提出了估计响应变量的分布函数和分位数的三种方法:逆概率加权方法、回归插补方法和增广的逆概率加权方法.其次,在一些正则条件下,证明了三个估计量的渐近性质,并得到了一个重要的理论结果:这三个估计量具有相同的渐近方差.同时,提出了估计渐近方差的刀切法.最后,模拟计算和实例分析验证了所提出方法的有效性和可行性.3.研究了响应变量不可忽略缺失下非线性回归模型的经验似然推断问题.在倾向得分模型为全参数模型的情况下,提出了估计倾向得分模型中未知参数的半参数经验似然方法.在倾向得分模型存在稀疏性的情况下,提出了同时估计模型参数和选择稀疏变量的惩罚半参数经验似然方法.在一些正则条件下,证明了稀疏估计量的Oracle性质.进一步地,在响应变量不可忽略缺失下,构造了基于逆概率加权和增广的逆概率加权的两类估计方程,并在一定的正则条件下证明了经验似然估计量的相合性和渐近正态性.同时,在一定的正则条件下,研究了经验对数似然比函数的渐近分布.研究表明:当倾向得分模型中的参数已知时,经验对数似然比函数的渐近分布为标准卡方分布;当倾向得分模型中的参数未知且采用半参数经验似然方法或惩罚的半参数经验似然方法进行估计时,经验对数似然比函数的渐近分布为加权卡方分布.模拟研究和实例分析验证了方法的有效性和可行性.4.研究了协变量随机缺失下乘性回归模型的变量选择问题.为了避免由缺失数据引起的估计偏差,基于相对误差准则提出了逆概率加权目标函数.通过对该目标函数加上自适应的Lasso惩罚项,研究了乘性回归模型参数的压缩估计问题,并在倾向得分模型存在稀疏性的情况下,证明了当协变量维数为固定维或发散维时参数估计量的Oracle性质.同时,给出了计算参数估计的一种有效的快速的算法.模拟研究验证了方法的有效性.本文研究了缺失数据模型的估计与变量选择问题,将完全数据的统计分析方法推广到了缺失数据情形,为缺失数据分析提供了理论和方法支持,具有广泛的应用前景.
其他文献
农地适度规模经营是农业现代化发展理念的重要体现和具体应用。黑龙江省是国家重要的粮食主产区和商品粮基地,耕地资源丰富,“两大平原”是国家目前开展的唯一涉及农业生产关
目的探讨24~33+6周未足月胎膜早破(PPROM)孕妇发生新生儿败血症的危险因素。方法回顾性分析中国医科大学附属盛京医院2016年1月至2018年4月收治的24~33+6周880例PPROM孕妇,根
通过对同一混凝土配合比不同掺量、不同形状稻草纤维混凝土的物理力学性能进行试验,分析出同一混凝土配合比不同掺量、不同形状稻草纤维对混凝土的抗压强度、劈裂抗拉强度、抗
贫困问题是一个亟待解决的全球性的难题,解决贫困问题是维护世界和平稳定发展,推进人类文明进步的有效途径之一。同时,贫困一直是困扰我国经济发展的大问题,我国一直将扶贫攻坚工作摆在重要的位置。截止2018年底,我国共有国家扶贫工作重点县585个,陕西省国家扶贫工作重点县46个。现今,距离2020年完成脱贫攻坚目标任务仅有不到1年时间,扶贫工作进入紧要关头。在这个关键时期,解决贫困问题需要党和政府转换思路
开封市位于黄河中下游,华北平原的中南部,历史上曾经有七个朝代建都于此,是我国六大古都之一。对于地震的记载,远在公元前七0年(汉本始四年)山东诸城七级地震,陈留郡(今开封
作为可植入性的医用性生物材料,钛及其合金凭借高耐腐蚀性、低弹性模量、良好的抗疲劳性能、以及优良的生物相容性被广泛应用于骨科、牙科等领域。但是,这些材料植入人体后常
近年来,全球恶性肿瘤发病率和死亡率持续升高,如何利用已有的诊疗经验进行归纳总结,挖掘潜在的、有效的诊疗关系,以加强恶性肿瘤防治工作,成为医务工作者迫切需要解决的问题。随着我国医药卫生信息化的发展,各大医院已经积累了丰富的中文肿瘤电子病历。电子病历中蕴含着丰富的医学事实,然而其非结构化的文本结构,包含大量的医学专业术语、缩略语等特点,给大数据环境下电子病历的组织和利用带来极大的挑战。知识图谱作为人工
《广西城镇建设》是由广西住房和城乡建设厅主管、广西住房和城乡建设信息中心主办、广西城镇建设杂志社有限公司出版,面向国内外公开发行的综合性科技期刊。创刊于2003年,目
本文比较了PEN与PET的性能及应用情况。
资金是企业经营活动正常开展的基础,是企业经营活动的源泉和正常运转的根本保证。资金管理是企业管理的重要内容,是企业财务管理的根本。一个企业经营管理水平和经营效益的好