《比较统计学》框架的构建及在回归分析中的示范研究

被引量 : 12次 | 上传用户:pxp99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】针对人们在处理同一个与统计学有关的问题时往往随意从多种类似的分析方法中选择其一的事实,和迄今为止统计学体系中缺乏科学系统的理论研究的现状,建立比较统计学研究的平台,构建科学、合理、系统、完善的比较统计学框架,并对回归分析中的三个子课题进行深入研究,以期成为此项研究的示范;同时邀请与本课题研究有关的各分支领域的专家共同参与该项研究,促进比较统计学的繁荣与发展。【内容】本研究首先构建比较统计学的框架,内容涉及统计学的方方面面,包括统计思想、统计理论和统计方法,重点是对相似的统计概念、理论和方法进行比较研究。在框架构建完成后,本研究对回归分析中的三个子课题进行了深入探索和研究,即①多种缺失数据处理方法在重复测量资料分析中的比较研究;②四种稳健回归分析方法的比较研究;③多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现。在对重复测量资料多种缺失数据处理方法的比较研究中,考察了删除法、单一填补法和多重填补法的处理效果;在对稳健回归方法的比较研究中,考察了最常用的Huber M估计、LTS估计、S估计和MM估计的稳健性及相对效率;在多种变量筛选方法的比较研究中,考察了前进法、后退法、逐步筛选法、R2选择法、校正R2选择法和Mallow’sC p选择法的优劣,并通过SAS软件的宏语言,实现了在进行多重线性回归分析和多种logistic回归分析时,针对同一个问题自动运用多种方法进行变量筛选并自动输出最优的拟合模型,并通过实例验证程序的可行性。本研究还制定了中英文邀请函,邀请国内外专家参与该课题的研究,以凝聚更多专家的智慧和力量,促进比较统计学的繁荣和发展。【方法】为构建科学、合理、系统、完善的比较统计学框架,本研究大量搜集、阅读、学习、归纳和整理包括Pubmed、Embase、中国知网、万方、维普等大型数据库中的相关文献,在现有的统计学知识的基础上,对比较统计学的整体架构进行梳理,并与教研室师生进行了多次讨论并反复修改。对于重复测量资料多种缺失数据处理方法的比较研究,首先对各种方法进行原理上的总结与比较,然后运用蒙特卡罗模拟的方法构建含一个分组因素和一个重复测量因素的数据集,并进行混合效应模型分析,比较各种方法处理缺失数据的能力。对于单调缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法、多重填补法中的线性回归法、预测均数匹配法和趋势得分法在三种不同缺失机制、五种不同缺失率数据中的处理效果,其中多重填补法还考虑了不同的填补次数对结果的影响。对于任意缺失模式的数据集,考察了删除法、单一填补法中的均值填补法和末次观测结转法以及多重填补法中的马尔科夫链蒙特卡罗填补法在三种不同缺失机制、五种不同缺失率数据中的处理效果,同时也考察了多重填补不同填补次数对结果的影响。对于四种稳健回归方法的比较,首先对各种方法进行原理上的介绍与比较,然后运用蒙特卡罗模拟的方法比较各种方法的稳健性和相对效率。通过构造一个线性模型,分别运用普通最小二乘估计、Huber M估计、LTS估计、S估计和MM估计分析误差不满足正态分布以及含不同来源和不同比例的异常点的情况。同时,考察在数据满足高斯马尔科夫假定下,以普通最小二乘估计的效率为基准,计算四种稳健估计相对于普通最小二乘估计的效率。最终,综合稳健性及相对效率归纳四种稳健回归方法的优劣。对于多种变量筛选方法的比较研究及在多重回归分析中的SAS自动化实现,选择常用的三种自变量筛选方法(即前进法、后退法和逐步筛选法)及三种最优回归子集法(R2选择法、校正R2选择法、Mallow’sC p选择法),总结各种筛选方法的原理及优缺点,并基于SAS语言编写程序,实现多重线性回归分析和多重logistic回归分析的自动化筛选。随后,将该程序运用到有氧健身效果的影响因素分析及喉癌的发病危险因素分析中,以验证程序的可行性。【结果】本课题构建了比较统计学研究的框架,并对回归分析中的三个子课题进行了深入研究,全面分析和比较了多种缺失数据处理方法处理重复测量资料的优劣、四种常用稳健回归方法的优劣及多种变量筛选方法的优缺点,并通过SAS软件进行大量编程,实现了多重线性回归分析和多重logistic回归分析自动运用多种方法进行变量筛选并输出最优模型的SAS自动化程序。具体而言,本文的研究结果以及主要创新点包括以下四个方面:(1)构建了科学、合理、系统、完善的比较统计学框架,包括统计思想的比较、各种科研设计方法的比较、统计资料收集与整理方法的比较、常用统计分析方法的比较以及特殊领域中统计应用的比较。(2)多种缺失数据处理方法在重复测量资料中的比较研究得出:在任意缺失模式下,当缺失机制为完全随机缺失和随机缺失时,在低缺失率(10%)情况下,删除法、单一填补法和多重填补法的效果均较好;随着缺失率的增大,删除法和单一填补法的处理效果都不佳,单一填补法甚至不如删除法;而多重填补法的处理效果依然令人满意,当缺失率较低时结果几乎与真值无异,当缺失率高达50%时,其回归系数也非常接近真值,其缺点是在高缺失率下容易高估变量的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,各种方法的处理效果都不理想。在单调缺失模式下,当缺失机制为完全随机缺失和随机缺失时,删除法、均值填补法、末次观测结转法和多重填补的趋势得分法的处理效果都不理想,而多重填补的线性回归法和预测均数匹配法的填补效果很好,其回归系数非常接近真值,缺点是在一定程度上会高估系数的变异程度。另一方面,多重填补的效果并非随着填补次数的增加而增加。当缺失机制为非随机缺失时,所有方法都无法取得较好的处理效果。(3)四种稳健回归方法的比较研究得出:当误差不满足正态分布时,普通最小二乘估计无法进行正确的参数估计和假设检验,且结果非常不稳健,而HuberM估计、LTS估计、S估计和MM估计则能有效抵抗非正态误差的影响。当数据中存在异常值时,无论存在于原因变量还是结果变量,普通最小二乘估计都无法抵御,结果非常不稳健。当异常值只出现在结果变量中时,四种稳健估计法都能正确地估计回归模型,结果非常稳健;当异常值只出现在原因变量中时,Huber M估计无法正确估计回归模型,而LTS估计、S估计和MM估计仍能正确拟合模型,结果稳健;当结果变量和原因变量都存在异常值时,Huber M估计同样无法正确拟合回归模型,而LTS估计、S估计和MM估计依然能正确地估计模型,结果稳健。也就是说,Huber M估计只对结果变量存在异常值的情况稳健,而LTS估计、S估计和MM估计对于原因变量和结果变量的异常值都很稳健。另一方面,在对四种稳健回归方法效率的考察时,以普通最小二乘回归为参照,得出当数据满足高斯马尔科夫假定时,Huber M估计的相对效率最高,能达到普通最小二乘估计的95%;MM估计的相对效率次之,但仍然较高,能达到普通最小二乘估计的85%;S估计再次之,为普通最小二乘估计的75%;LTS估计最低,只有普通最小二乘估计的27%。因此,综合稳健性和相对效率,MM估计相对Huber M估计、LTS估计和S估计具有很大优势,是一种良好的稳健回归估计方法。(4)对六种变量筛选方法的比较研究,首先从原理上分析了各种方法的优缺点,并借助SAS软件的宏编程语言,实现了在多重线性回归和多重logistic回归分析中自动运用多种方法进行自变量筛选并自动输出最优的拟合模型。将该程序运用到有氧健身效果的影响因素分析中,得到年龄、跑1.5km消耗的时间以及跑步时的心率为影响有氧健身效果的影响因素;运用该程序分析喉癌的发病危险因素,得到吸烟量、新鲜蔬菜摄食量以及癌症家族史为喉癌的发病危险因素。通过在以上实例中的运用,证明了程序的切实可行性。【结论】本课题构建了比较统计学研究的框架,在一定程度和范围内,为未来统计学的研究和发展绘就了一幅宏伟的蓝图;针对回归分析中的三个子课题进行了深入的比较研究,得到了令人满意的结果,为完善比较统计学这个学术平台起到了很好的示范作用。在对多种缺失数据分析方法处理重复测量资料的比较研究中,通过原理上和模拟上的比较,考虑了不同的缺失模式、缺失机制和缺失率,使统计结论更可靠,为实际应用中寻找此类问题的最佳处理提供了有效策略;在对四种常用的稳健回归分析方法的比较研究中,同样进行了原理上和模拟上的比较,对四种方法的稳健性和相对效率进行了全面、系统的评价,统计推论更可信,为稳健回归估计方法的普及和合理选择夯实了理论基础。此外,还对六种变量筛选方法进行了综合比较,通过SAS编程实现了多重回归分析中自动运用多种方法进行变量筛选并自动输出最优模型,并通过实例验证了程序的可行性,为更好、更快捷地选择合适的多重回归模型奠定了理论基础和提供了有效途径。
其他文献
古城是一个地区历史文化,民俗风情等的浓缩。旅游业作为世界上增长最迅速,最具效益的产业之一,为当地地区提供了良好的经济发展条件。1997年,丽江古城申报世界文化遗产成功,
艺体生作为高考大军中比例逐年上升的一个特殊群体,近年来成了社会关注的热点。“如何在高考复习阶段把握时机,尽可能提高学生成绩”也成为摆在高三地理教师面前一个重要且亟
《斐德若》是柏拉图对话集中讨论爱欲的一篇。由对爱欲的讨论,进而过渡到哲学和修辞术的关系问题。柏拉图通过对话的方式,回答哲学是什么,哲学能干什么的问题。
工伤职业康复的最终目标是使工伤职工恢复就业劳动能力、重返就业岗位、回归社会生活。本文基于系统性文献回顾的方式,梳理国内外对于工伤职业康复服务效果的研究,并提出改善
现在我国实行的是社会主义市场经济,为了适应这种新的经济环境,使我国经济能与世界经济更好的结合,我国在2007年正式实行新会计准则。新会计准则的实施会对经济的发展产生全
<正>"侧重培养阅读能力"是教学大纲规定的高中英语教学目的之一,是培养学生理解和运用英语技能的一个基本方法,又是落实交际实践性的主要途径。加强阅读训练可以为学生创造大
<正> 为了说明旧中国民族资本近代工业在“夹缝”中发展的局限性,先要分析旧中国国民经济的一些基本情况。近代中国是一个半封建半殖民地国家,国民经济的发展虽历经一百多年
信息素养是信息时代环境中每个人都应具有的一项能力,是人们投身社会生活的一个重要条件,它构成了人们终生学习的基础。中小学生的成长与发展关乎着国家的未来,所以提升中小学生
目的分析机械通气对急重症肺动脉高压伴呼吸衰竭患者血浆脑钠肽(BNP)水平的影响。方法选取100例肺动脉高压伴呼吸衰竭患者,将其随机分为有创组和无创组各50例。有创组患者在常
石油是一种重要的能源,它在世界能源结构中占有举足轻重的地位,中国目前已经成为世界第二大能源消耗国。石油对人民的生产生活具有重大的影响,然而石油能源是一种不可再生资