论文部分内容阅读
计数数据广泛的存在于生物医学、金融保险、公共健康以及风险控制等领域,零点膨胀是该数据所呈现出的特征之一。所谓零点膨胀,即零观测的比例远超过了拟合分布所允许的范围,也即在零处发生了膨胀。零点膨胀泊松回归模型是拟合上述数据的一般选择。此外,计数数据还常常会呈现出散度偏大的特征,若数据方差的变化大于其均值,则称该数据是散度偏大的。较传统的零点膨胀泊松回归模型而言,零点膨胀下的负二项(ZINB)回归模型更能够解释数据中散度偏大的结构,是分析散度偏大计数数据的有力工具。从已有的研究成果来看,现有的方法和理论大都集中于计数数据的似然分析方面,相比之下,对于现实生活中广泛存在的计数数据的贝叶斯分析仍存在较大的研究空间,特别是对散度偏大计数数据下的层次回归模型的贝叶斯统计推断研究仍有待进一步完善。与极大似然方法相比,贝叶斯方法综合了样本中的先验信息,对于某些分布的建模又具有较灵活的特点,特别是对于缺失数据与复杂模型的研究,贝叶斯方法尤其具有计算的可行性、有效性等方面的优势。因此,本论文将从贝叶斯分析的角度入手,对具有零点膨胀和散度偏大的计数数据进行深入研究。论文首先针对计数数据的零膨胀问题,建立与Probit模型相结合的零膨胀泊松回归模型,同时建立起了结合Gibbs抽样与M-H算法的MCMC技术以获得模型参数的贝叶斯估计,在此基础上,论文采用了DIC信息准则以进行模型之间的比较和选择并进一步考虑了偏后验预测p值以合理评估模型的拟合优度。此外,由于抽样程序及问卷设计的需要,计数数据往往会呈现出组内相关与组间独立的特征,经典的纵向计数数据分析理论总是对随机效应及随机误差均考虑正态分布的情形,然而在实际应用中,这样的假设缺乏统计上的稳健性与建模的灵活性,特别是对于具有尖峰厚尾以及非对称的“非正态型”数据而言,这样的假设会导致有偏甚至无效的统计推断结论。为此,本论文重点考虑了偏斜正态分析下的ZINB层次回归模型的贝叶斯分析问题。具体的,建立起了关于零点膨胀计数数据的ZINB层次回归模型并对随机误差及随机效应考虑偏斜正态分布,在贝叶斯后验推断方面,基于数据添加思想及偏斜正态分布的随机表示理论,建立起了三层次的贝叶斯分析模型并最终得到模型的后验分布。实际例子表明,该论文提出的方法是有效的。