线性回归模型的若干稳健估计方法与应用实例

来源 :山东大学 | 被引量 : 0次 | 上传用户:tiyuanzhurenzsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线性回归模型是应用十分广泛的一类模型,估计回归系数的经典方法是最小二乘法(OLS)。然而,最小二乘法很容易受到异常点的影响,是不稳健的。真实观测数据中,异常点很难避免,这时候利用最小二乘法进行估计,估计结果会比较差,进而使得预测效果也比较差,在一定程度上限制了线性模型的应用。因此,探讨研究一下线性模型的稳健估计方法很有必要,也很有实际意义。本文着重回顾和比较了线性模型的若干种稳健估计方法。   本文第一章给出了研究背景和研究框架。第二章介绍了稳健统计的基本思想、常用的几个概念和发展状况。第三章介绍了线性回归模型的一些稳健估计方法:M估计、最小中位数平方估计(LMS估计)、最小截尾平方估计(LTS估计)、最小残差尺度估计(S估计)、MM估计、函数最小平方估计(FLS估计),详细列出了这些稳健估计方法的定义、算法以及一些改进方法。第四章简单介绍了广义线性模型的几种稳健估计方法,着重介绍了Mallows拟似然估计。第五章模拟了存在离群点的情况下,各种估计方法的优劣。第六章将稳健估计应用在信用评分上,进行实证分析,利用稳健估计方法估计Logistic模型的回归系数,并进行了验证。   数值模拟中,本文采取了三种方式加入异常点:使用不同的误差分布,直接加入不同比例Y方向的异常点,直接加入不同比例X与Y方向的异常点。使用了OLS、M、GM(广义M)、LMS、LQS(最小分位数平方)、LTS、S、MM这些估计方法,得到了以下结论。当误差服从正态分布时,稳健估计方法与OLS基本一样好。当误差服从拉普拉斯分布、柯西分布、污染正态分布时,稳健估计方法要显著优于OLS。存在离群点的情况下,OLS估计结果比较差,稳健估计方法要优于OLS。对于仅在Y方向异常的离群点,各种稳健估计方法都能有效地对抗。对于含有在X与Y方向都异常的离群点的情形,M估计表现得比较差;GM估计在M估计的基础上对X进行了加权,要优于M估计;LMS、LQS、LTS、S、MM这几种高崩溃点的估计方法表现得都很好。各种稳健估计方法的效率和崩溃点有所差异,数据的污染率以及离群点偏离主体的程度也不尽相同,可以根据实际情况,选择合适的稳健估计方法。   实例分析中,本文使用了最大似然法(MLE)和Huber拟似然、Mallows拟似然估计方法,比较了不同自变量维数下、不同好坏客户比建模样本下各种估计方法的估计效果。Mallows方法中,使用了两种对X加权的方法:帽矩阵hat法和稳健协方差阵MVE方法。拟似然方法的估计结果明显优于MLE,Mallows拟似然由于对X方向也进行了加权,比Huber拟似然估计更好一些。存在离群点的情况下,稳健估计方法能更好地拟合大部分数据,进而使得预测更加准确。  
其他文献
肾脏算法(kidney-inspired algorithm,KA)是一种模拟人体肾脏工作原理和过程的随机优化算法,该算法具有对较优个体进行局部精细搜索及对较差个体进行全局搜索的能力.目前这个算法已被成功应用于降雨预测、电力系统优化等领域.然而到目前为止,相对于其他智能算法群体,肾脏算法在理论研究和实际应用方面的研究还有所欠缺,仍然有许多相关的问题需要进一步研究.为了进一步提高肾脏算法的收敛速度以
学位
本文主要研究了如下平均场倒向随机微分方程在两种随机条件下的解及其性质:Yt=η+∫Tt E[Φ(s,Ys,Zs,Ys,Zs]dQs-∫TtZsdBs,0≤t≤T,(0.0.1)其中η是FT-可测随机变量;Q是F-适应连续增