论文部分内容阅读
自Koenker and Bassett(1978)以来,分位数回归模型已成为探索因变量与自变量之间关系的重要工具。由于能够同时考察因变量对自变量在多个分位数水平上的依赖关系,分位数回归比均值回归或中位数回归能够提供更全面的信息,也更加稳健,该回归模型已在各个领域有了广泛的应用和发展。本文旨在研究基于偏拉普拉斯分布的若干分位数回归模型的参数估计问题,这些模型包括分位数回归、截尾分位数回归、有限混合分位数回归以及带有变点的中位数回归模型。涉及若干统计算法,包括非迭代抽样算法、随机EM算法、以及有限混合模型的Gibbs抽样算法等。所考虑算法能避免传统算法的有关缺点,并在模拟和实例分析中都有较好的表现。1.分位数回归模型的非迭代抽样算法考虑如下线性分位数回归模型(?)其中yi为响应变量,xi为p×1协变量,βq为p维感兴趣的未知参数向量,εi为随机误差项,要求其q阶分位数为零。于是,给定xi,βq为yi的q阶条件分位数回归系数。βq的分位数估计使下式达最小(?)(?)(?)其中ρq(u)=u{q-I(u<0)}为损失函数,这里I(·)表示示性函数。下面引入偏拉普拉斯分布ALD(0,σ,q),其密度函数为(?)(?)由于最小化S(βq)等价于最大化以ALD(0,σ,q)为误差分布的线性回归模型的似然函数,所以ALD(0,σ,q)通常用来刻画分位数回归中误差项εi的分布。近年来,基于ALD(0,σ,q)误差假设及其位置尺度混合表示,关于分位数回归模型的统计推断方法有了讯速发展,如 Reed and Yu(2009)以及 Kozumi and Kobayashi(2011)的 Gibbs抽样算法,Tian et al.(2014)和 Zhou et al.(2014)的 EM 算法。在贝叶斯框架下,Yu and Stander(2007)研究了 tobit分位数回归模型的统计推断,Benoit and Van den Poel(2012)则发展了二值分位数回归模型的推断方法。尽管EM算法是在缺失结构下寻找最大似然估计(MLE)或后验众数的有力工具,对于这种基于似然的推断方法依然有很多挑战,比如Meng and Rubin(1991)提到的多参数下估计的标准误问题,讨厌参数问题,中小样本下MLE的渐进理论未必适用问题等。由于其灵活性和易实施性,Gibbs抽样和其他马氏链蒙特卡洛方法(MCMC)被广泛用于贝叶斯统计推断,但这些迭代抽样算法有其缺陷,实际应用中容易被忽视。其一,由迭代的MCMC抽样产生的样本很难做到独立;其二,很难确信迭代终止时抽取的马氏链是否达到收敛。Tan et al.(2003)提出了一种缺失数据结构下基于逆贝叶斯公式(IBF)的非迭代抽样算法,该算法可从后验分布中产生(近似)独立同分布(i.i.d.)的样本,该样本可直接用于贝叶斯统计推断,从而该方法避免了 EM算法和Gibbs抽样的缺点。受Tanet al.(2003)启发,在第一章中,我们将IBF的思想应用到分位数回归模型中去,发展了相应的非迭代后验抽样算法。首先,将ALD表示为正态分布的方差-均值混合,其中混合变量服从指数分布,将该变量视为潜变量,获得添加的后验预测分布。然后,用EM算法所得后验众数作为初始估计获得最佳的重点抽样密度(ISD)。最后,将IBF算法与抽样/重点再抽样(SIR)算法结合起来,产生来自观测后验分布的近似独立同分布的样本。数值模拟和实例分析显示,该非迭代算法比EM算法和迭代的Gibbs抽样表现要好。2.截尾分位数回归模型的随机EM算法在第二章,我们发展了处理分位数回归及截尾分位数回归模型的随机EM算法,该算法能避免EM算法和Gibbs抽样的一些缺点。模拟结果显示,该算法不逊于Gibbs抽样,而在非缺失的情形下,优于EM算法。最后,我们用该算法分析了经典的Engel食物消费数据和带截尾的劳动力供应数据,发现与Gibbs抽样相比,SEM算法的表现更令人满意。3.有限混合分位数回归模型的Gibbs抽样算法在回归分析里,有限混合线性回归模型已被广泛用来刻画混在一起的不同组别中因变量度对自变量的依赖关系。但通常对不同组内的误差作正态性假设,该假设对重尾数据或数据中的异常值很敏感。与混合线性(正态)回归相比,混合分位数回归模型更加稳健,且通过研究不同分位数下不同组别中因变量与因变量的相依关系,该模型能够更加全面地描述自变量对因变量的影响。文献中,最早处理混合分位数回归模型的是Wu and Yao(2016),在他们的文章中,作者提出了一种半参数混合分位数回归模型,对误差项未作任何假设,发展了一种基于核密度估计的半参数EMI算法来估计参数。随后,Tian et al.(2016)考虑了基于偏拉普拉斯误差假设的混合分位数回归模型,并发展了易于实施的EM算法。尽管EM算法是处理缺失数据结构,获得最大似然估计(MLE)或后验众数的有力工具,但求所得估计的标准误却并非易事,特别是在多参数的场合。当样本量很大时,基于最大似然估计的渐进正态性,一般可用观测的信息阵的逆矩阵的对角元的平方根来估计该标准误,但对于中等或很小的样本量来说,该渐进理论未必合适。受Tian et al.(2016)启发,在论文第三章里,我们从贝叶斯的角度探讨了有限混合分位数回归模型的统计推断问题。利用ALD的分层表示以及多项分布的分组变量,在很弱的先验设定下,我们导出了 Gibbs抽样中所到用的满条件分布。该Gibbs抽样策略的每一步都很清楚,且易于实施。与EM算法相比,该算法的优势是可以利用Gibbs样本对参数做统计推断并评价其标准差。模拟显示,在不同的数据生成机制和分位数水平下,该算法所得估计有相对很小的偏差和均方误差。最后,我们用该策略分析了两组实际数据,发现与混合正态(均值)回归相比,该策略对数据中的异常值很稳健,同时能够更全面系统地描述不同组别中因变量对协变量的依赖关系。4.基于拉普拉斯回归模型的稳健变点估计在第四章中,我们提出了基于拉普拉斯回归的稳健回归系数变点模型,并借助拉普拉斯分布的正态混合表示,发展了估计变点位置的EM算法和Schwarz信息准则(SIC)。模拟发现该方法对误差分布很稳健,能够有效地估计变点位置。最后,我们有分析了一组股票市场数据,并发现了一个潜在的变点。