线性回归模型的若干稳健估计方法及应用实例

来源 :山东大学 | 被引量 : 0次 | 上传用户:ggx8829
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线性回归模型是应用十分广泛的一类模型,估计回归系数的经典方法是最小二乘法(OLS)。然而,最小二乘法很容易受到异常点的影响,是不稳健的。真实观测数据中,异常点很难避免,这时候利用最小二乘法进行估计,估计结果会比较差,进而使得预测效果也比较差,在一定程度上限制了线性模型的应用。因此,探讨研究一下线性模型的稳健估计方法很有必要,也很有实际意义。本文着重回顾和比较了线性模型的若干种稳健估计方法。本文第一章给出了研究背景和研究框架。第二章介绍了稳健统计的基本思想、常用的几个概念和发展状况。第三章介绍了线性回归模型的一些稳健估计方法:M估计、最小中位数平方估计(LMS估计)、最小截尾平方估计(LTS估计)、最小残差尺度估计(S估计)、MM估计、函数最小平方估计(FLS估计),详细列出了这些稳健估计方法的定义、算法以及一些改进方法。第四章简单介绍了广义线性模型的几种稳健估计方法,着重介绍了Mallows拟似然估计。第五章模拟了存在离群点的情况下,各种估计方法的优劣。第六章将稳健估计应用在信用评分上,进行实证分析,利用稳健估计方法估计Logistic模型的回归系数,并进行了验证。数值模拟中,本文采取了三种方式加入异常点:使用不同的误差分布,直接加入不同比例Y方向的异常点,直接加入不同比例X与Y方向的异常点。使用了OLS、M、GM(广义M)、LMS、LQS(最小分位数平方)、LTS、S、MM这些估计方法,得到了以下结论。当误差服从正态分布时,稳健估计方法与OLS基本一样好。当误差服从拉普拉斯分布、柯西分布、污染正态分布时,稳健估计方法要显著优于OLS。存在离群点的情况下,,OLS估计结果比较差,稳健估计方法要优于OLS。对于仅在Y方向异常的离群点,各种稳健估计方法都能有效地对抗。对于含有在X与Y方向都异常的离群点的情形,M估计表现得比较差;GM估计在M估计的基础上对X进行了加权,要优于M估计;LMS、LQS、LTS、S、MM这几种高崩溃点的估计方法表现得都很好。各种稳健估计方法的效率和崩溃点有所差异,数据的污染率以及离群点偏离主体的程度也不尽相同,可以根据实际情况,选择合适的稳健估计方法。实例分析中,本文使用了最大似然法(MLE)和Huber拟似然、Mallows拟似然估计方法,比较了不同自变量维数下、不同好坏客户比建模样本下各种估计方法的估计效果。Mallows方法中,使用了两种对X加权的方法:帽矩阵hat法和稳健协方差阵MVE方法。拟似然方法的估计结果明显优于MLE, Mallows拟似然由于对X方向也进行了加权,比Huber拟似然估计更好一些。存在离群点的情况下,稳健估计方法能更好地拟合大部分数据,进而使得预测更加准确。
其他文献
目的:对北京某三甲医院(简称某院)住院患者口服抗高血压药使用情况进行分析、讨论,研究其使用特点,以期为临床使用口服抗高血压药提供合理参考。方法:采用回顾性方法对2014~2
综述了镁基复合材料原位制备技术的研究进展,阐述了各种制备方法的特点和存在的问题。对镁基复合材料原位制备方法的发展提出了自己的看法。
目的 对比地高辛联用美托洛尔和联用地尔硫对慢性心力衰竭 (CHF)伴慢性心房颤动(AF)患者的近期疗效与远期预后。方法 选择CHF伴慢性AF 81例 ,随机分为美托洛尔组 (42例 )
作者意图是当代文学理论中一个极具争议性的问题,肯定和否定的不同立场构成了两个对立的派别。自解构主义宣判"作者之死"后,恪守作者意图对文本阐释重要性的努力催生了"作者
矿山中蕴含大量的矿产资源,然而伴随人类的开采活动,会对矿山周围的生态环境形成一定的破坏,开采过程中会形成陡直的开采边坡,影响自然状态下的岩石稳定性,遇有诱发地质灾害
阐述了新钢第一炼钢厂4# 板坯连铸机扇形段上使用单线智能润滑系统,取代原双线集中润滑系统改造项目的原理、实施过程、应用特点。使其实现了精确的油量控制、定时润滑和远程