论文部分内容阅读
线性回归模型是应用十分广泛的一类模型,估计回归系数的经典方法是最小二乘法(OLS)。然而,最小二乘法很容易受到异常点的影响,是不稳健的。真实观测数据中,异常点很难避免,这时候利用最小二乘法进行估计,估计结果会比较差,进而使得预测效果也比较差,在一定程度上限制了线性模型的应用。因此,探讨研究一下线性模型的稳健估计方法很有必要,也很有实际意义。本文着重回顾和比较了线性模型的若干种稳健估计方法。
本文第一章给出了研究背景和研究框架。第二章介绍了稳健统计的基本思想、常用的几个概念和发展状况。第三章介绍了线性回归模型的一些稳健估计方法:M估计、最小中位数平方估计(LMS估计)、最小截尾平方估计(LTS估计)、最小残差尺度估计(S估计)、MM估计、函数最小平方估计(FLS估计),详细列出了这些稳健估计方法的定义、算法以及一些改进方法。第四章简单介绍了广义线性模型的几种稳健估计方法,着重介绍了Mallows拟似然估计。第五章模拟了存在离群点的情况下,各种估计方法的优劣。第六章将稳健估计应用在信用评分上,进行实证分析,利用稳健估计方法估计Logistic模型的回归系数,并进行了验证。
数值模拟中,本文采取了三种方式加入异常点:使用不同的误差分布,直接加入不同比例Y方向的异常点,直接加入不同比例X与Y方向的异常点。使用了OLS、M、GM(广义M)、LMS、LQS(最小分位数平方)、LTS、S、MM这些估计方法,得到了以下结论。当误差服从正态分布时,稳健估计方法与OLS基本一样好。当误差服从拉普拉斯分布、柯西分布、污染正态分布时,稳健估计方法要显著优于OLS。存在离群点的情况下,OLS估计结果比较差,稳健估计方法要优于OLS。对于仅在Y方向异常的离群点,各种稳健估计方法都能有效地对抗。对于含有在X与Y方向都异常的离群点的情形,M估计表现得比较差;GM估计在M估计的基础上对X进行了加权,要优于M估计;LMS、LQS、LTS、S、MM这几种高崩溃点的估计方法表现得都很好。各种稳健估计方法的效率和崩溃点有所差异,数据的污染率以及离群点偏离主体的程度也不尽相同,可以根据实际情况,选择合适的稳健估计方法。
实例分析中,本文使用了最大似然法(MLE)和Huber拟似然、Mallows拟似然估计方法,比较了不同自变量维数下、不同好坏客户比建模样本下各种估计方法的估计效果。Mallows方法中,使用了两种对X加权的方法:帽矩阵hat法和稳健协方差阵MVE方法。拟似然方法的估计结果明显优于MLE,Mallows拟似然由于对X方向也进行了加权,比Huber拟似然估计更好一些。存在离群点的情况下,稳健估计方法能更好地拟合大部分数据,进而使得预测更加准确。