基于偏拉普拉斯分布的若干分位数回归模型的统计推断

来源 :山东大学 | 被引量 : 0次 | 上传用户:saialmaster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自Koenker and Bassett(1978)以来,分位数回归模型已成为探索因变量与自变量之间关系的重要工具。由于能够同时考察因变量对自变量在多个分位数水平上的依赖关系,分位数回归比均值回归或中位数回归能够提供更全面的信息,也更加稳健,该回归模型已在各个领域有了广泛的应用和发展。本文旨在研究基于偏拉普拉斯分布的若干分位数回归模型的参数估计问题,这些模型包括分位数回归、截尾分位数回归、有限混合分位数回归以及带有变点的中位数回归模型。涉及若干统计算法,包括非迭代抽样算法、随机EM算法、以及有限混合模型的Gibbs抽样算法等。所考虑算法能避免传统算法的有关缺点,并在模拟和实例分析中都有较好的表现。1.分位数回归模型的非迭代抽样算法考虑如下线性分位数回归模型(?)其中yi为响应变量,xi为p×1协变量,βq为p维感兴趣的未知参数向量,εi为随机误差项,要求其q阶分位数为零。于是,给定xi,βq为yi的q阶条件分位数回归系数。βq的分位数估计使下式达最小(?)(?)(?)其中ρq(u)=u{q-I(u<0)}为损失函数,这里I(·)表示示性函数。下面引入偏拉普拉斯分布ALD(0,σ,q),其密度函数为(?)(?)由于最小化S(βq)等价于最大化以ALD(0,σ,q)为误差分布的线性回归模型的似然函数,所以ALD(0,σ,q)通常用来刻画分位数回归中误差项εi的分布。近年来,基于ALD(0,σ,q)误差假设及其位置尺度混合表示,关于分位数回归模型的统计推断方法有了讯速发展,如 Reed and Yu(2009)以及 Kozumi and Kobayashi(2011)的 Gibbs抽样算法,Tian et al.(2014)和 Zhou et al.(2014)的 EM 算法。在贝叶斯框架下,Yu and Stander(2007)研究了 tobit分位数回归模型的统计推断,Benoit and Van den Poel(2012)则发展了二值分位数回归模型的推断方法。尽管EM算法是在缺失结构下寻找最大似然估计(MLE)或后验众数的有力工具,对于这种基于似然的推断方法依然有很多挑战,比如Meng and Rubin(1991)提到的多参数下估计的标准误问题,讨厌参数问题,中小样本下MLE的渐进理论未必适用问题等。由于其灵活性和易实施性,Gibbs抽样和其他马氏链蒙特卡洛方法(MCMC)被广泛用于贝叶斯统计推断,但这些迭代抽样算法有其缺陷,实际应用中容易被忽视。其一,由迭代的MCMC抽样产生的样本很难做到独立;其二,很难确信迭代终止时抽取的马氏链是否达到收敛。Tan et al.(2003)提出了一种缺失数据结构下基于逆贝叶斯公式(IBF)的非迭代抽样算法,该算法可从后验分布中产生(近似)独立同分布(i.i.d.)的样本,该样本可直接用于贝叶斯统计推断,从而该方法避免了 EM算法和Gibbs抽样的缺点。受Tanet al.(2003)启发,在第一章中,我们将IBF的思想应用到分位数回归模型中去,发展了相应的非迭代后验抽样算法。首先,将ALD表示为正态分布的方差-均值混合,其中混合变量服从指数分布,将该变量视为潜变量,获得添加的后验预测分布。然后,用EM算法所得后验众数作为初始估计获得最佳的重点抽样密度(ISD)。最后,将IBF算法与抽样/重点再抽样(SIR)算法结合起来,产生来自观测后验分布的近似独立同分布的样本。数值模拟和实例分析显示,该非迭代算法比EM算法和迭代的Gibbs抽样表现要好。2.截尾分位数回归模型的随机EM算法在第二章,我们发展了处理分位数回归及截尾分位数回归模型的随机EM算法,该算法能避免EM算法和Gibbs抽样的一些缺点。模拟结果显示,该算法不逊于Gibbs抽样,而在非缺失的情形下,优于EM算法。最后,我们用该算法分析了经典的Engel食物消费数据和带截尾的劳动力供应数据,发现与Gibbs抽样相比,SEM算法的表现更令人满意。3.有限混合分位数回归模型的Gibbs抽样算法在回归分析里,有限混合线性回归模型已被广泛用来刻画混在一起的不同组别中因变量度对自变量的依赖关系。但通常对不同组内的误差作正态性假设,该假设对重尾数据或数据中的异常值很敏感。与混合线性(正态)回归相比,混合分位数回归模型更加稳健,且通过研究不同分位数下不同组别中因变量与因变量的相依关系,该模型能够更加全面地描述自变量对因变量的影响。文献中,最早处理混合分位数回归模型的是Wu and Yao(2016),在他们的文章中,作者提出了一种半参数混合分位数回归模型,对误差项未作任何假设,发展了一种基于核密度估计的半参数EMI算法来估计参数。随后,Tian et al.(2016)考虑了基于偏拉普拉斯误差假设的混合分位数回归模型,并发展了易于实施的EM算法。尽管EM算法是处理缺失数据结构,获得最大似然估计(MLE)或后验众数的有力工具,但求所得估计的标准误却并非易事,特别是在多参数的场合。当样本量很大时,基于最大似然估计的渐进正态性,一般可用观测的信息阵的逆矩阵的对角元的平方根来估计该标准误,但对于中等或很小的样本量来说,该渐进理论未必合适。受Tian et al.(2016)启发,在论文第三章里,我们从贝叶斯的角度探讨了有限混合分位数回归模型的统计推断问题。利用ALD的分层表示以及多项分布的分组变量,在很弱的先验设定下,我们导出了 Gibbs抽样中所到用的满条件分布。该Gibbs抽样策略的每一步都很清楚,且易于实施。与EM算法相比,该算法的优势是可以利用Gibbs样本对参数做统计推断并评价其标准差。模拟显示,在不同的数据生成机制和分位数水平下,该算法所得估计有相对很小的偏差和均方误差。最后,我们用该策略分析了两组实际数据,发现与混合正态(均值)回归相比,该策略对数据中的异常值很稳健,同时能够更全面系统地描述不同组别中因变量对协变量的依赖关系。4.基于拉普拉斯回归模型的稳健变点估计在第四章中,我们提出了基于拉普拉斯回归的稳健回归系数变点模型,并借助拉普拉斯分布的正态混合表示,发展了估计变点位置的EM算法和Schwarz信息准则(SIC)。模拟发现该方法对误差分布很稳健,能够有效地估计变点位置。最后,我们有分析了一组股票市场数据,并发现了一个潜在的变点。
其他文献
第一部分:不同阶段精神分裂症患者灰质体积的改变目的:探讨首发精神分裂症患者和复发精神分裂症患者脑灰质体积的差异。方法:对28例首发和27例复发精神分裂症患者(符合DSM-Ⅳ诊
我国中小企业存在着信贷困境,信用担保是化解中小企业信贷难题的关键。完善我国中小企业信用担保体系,应构建相关的中小企业担保机构,规范信用担保基金的运作,加快金融体制改革。
甘蔗压榨提汁过程是一个非常复杂的非线性过程,涉及蔗料弹塑性变形、甘蔗纤维和蔗汁之间的固液耦合以及压榨辊与甘蔗纤维、甘蔗纤维之间相互摩擦接触等非线性问题。由于过程
阐述了Ku波段雷达接收机的工作原理进行了阐述,并对设计方案与测试结果进行了分析。Ku波段接收机由低噪声变频单元、中频放大、本振和电源4个独立单元组成。对各单元电路的设
PISA2015数据显示中国的中学生学习效率较低,具体表现为学习时间长,但学业成就并没有获得相应的提升,即学业负担并不一定带来学业的进步。已有研究表明学业负担状况是影响心
传统脱氮除磷工艺存很多问题,如由于聚磷菌与硝化细菌在泥龄上存在的矛盾,以及反硝化菌和聚磷菌在碳源上存在竞争,导致其在脱氮与除磷之间难以兼顾。针对这些问题,设计出了A2
加快发展学前教育,促进农村地区普惠性幼儿园发展是推进精准扶贫、从人生早期阻断贫困代际传递、促进乡村振兴的重大举措。当前我国农村地区幼儿教育还存在普惠性资源供给、
讯问录音录像制度自2012年被《刑事诉讼法》正式确立以来,至今已有7年多的时间。颇为遗憾的是,法律并未明确讯问录音录像制度的具体执行规则。公安部、最高人民检察院等作为侦查机关发布了各项细则以明确该项制度的具体执行。但由于法律规定的笼统性和实务操作的多样性,该制度的作用属性和实际效益一直是学界和实务界的研究热点。2016年最高人民法院、最高人民检察院、公安部等联合颁布了《关于推进以审判为中心的刑事诉
【正】 曹雪芹(1715—1763),是我国古代文学史上最伟大的小说家。他创作的《红楼梦》在世界文学史上也占有很重要的地位。曹雪芹也是一位放风筝的佼佼者,出色的风筝制作家。
期刊
秉承以人为本、自主创新的研发路线,文章紧密结合新疆棉花生产的实际,以农民增产增收为目标,市场需求为导向,通过中间试验,采用考察、调研、学习与自主创新方法相结合,根据棉