论文部分内容阅读
统计诊断作为数据分析的重要组成部分,旨在对实际问题观测得到的数据和建议模型以及相应的统计推断方法进行合理性研究,判别实际数据是否与既定模型存在较大偏离,并提出相应的对策,现已广泛应用于各种统计问题和统计模型,具有较强的应用背景。特别是对于在经济学、社会学和生物医学等研究领域普遍存在的缺失数据的统计诊断也已成为了很多统计学家研究的热点课题。然而,在现有研究文献中,有关缺失数据下的统计诊断研究大都基于观测数据的似然函数或EM算法。但在实际问题中,当考虑的模型含有未知的非参函数以及含有缺失数据时,要获得完全数据的似然函数或许是不容易的,这样现有的统计诊断方法就不能直接应用于部分线性模型。因此,对于响应变量带有缺失数据下的部分线性模型,本论文基于半参估计方程和惩罚逆概率加权最小二乘方法,发展了包含残差分析、广义杠杆值分析、基于数据删除模型在内的影响分析和局部影响分析方法。同时,本论文对带有缺失的比例数据的广义部分线性模型建立了 Bayes局部影响分析方法。本文提出的方法不仅解决了响应变量带有缺失数据的部分线性模型的统计诊断问题,而且还对含有缺失数据的其他半参模型的统计诊断问题也有较好的借鉴意义。本文对含有缺失数据的部分线性模型的统计诊断进行了系统性研究,其主要研究内容及成果如下:(1)在响应变量带有随机缺失的情况下,研究了部分线性模型的个案删除模型的统计诊断和局部影响分析问题。当随机误差项的分布未知时,本文构造了基于半参估计方程而不是基于似然函数的统计诊断方法。首先,通过插补估计方法和逆概率加权估计方法构建了一个新的线性回归模型,然后,将线性回归模型中的帽子矩阵、残差和Cook距离推广到本文考虑的响应变量带有随机缺失的部分线性模型。同时,也将Wei etal.(1998)针对无缺失数据的复杂参数模型定义的广义杠杆推广到本文考虑的缺失数据下的部分线性模型。对于所建议的诊断方法,通过模拟研究和实例分析,阐明了该方法对于数据样本异常情况诊断识别的有效性。(2)在响应变量存在非随机缺失(NMAR)的情况下,研究了部分线性模型的局部影响分析。借助工具变量的广义矩估计方程(GMM)和非参核密度估计方法,本文将逆概率加权估计方法与样条光滑技术相结合,建立了响应变量带有不可忽略缺失的部分线性模型的惩罚逆概率加权最小二乘目标函数,并据此将惩罚最小二乘的局部影响分析方法推广到了本论文考虑的响应变量带有不可忽略缺失的部分线性模型。通过模拟试验和实例数据分析,说明了本文所建议的响应变量带有不可忽略缺失的部分线性模型的局部影响分析方法的有效性,并发现本文建议的局部影响分析方法中,对角元诊断统计量bjj比最大特征向量法的诊断统计量hmaxjj·对异常点或强影响点更加敏感。(3)对含有不可忽略缺失的比例数据的广义部分线性模型,考虑了散度参数的差异性,对模型进行Bayes估计和Bayes局部影响分析。本文通过对数据、参数先验分布和缺失机制模型参数的扰动建立了不同的扰动模型,并在不同的目标函数下构造了一阶和二阶贝叶斯局部影响测度统计量,对数据的异常、先验信息和缺失机制的设定进行识别和诊断。最后,通过四个模拟试验解释说明了提出的方法的有效性和合理性。