论文部分内容阅读
线性模型在统计学中具有广泛的应用。研究人员在进行实际问题研究时,通常利用数据删除模型或均值漂移模型,通过观察删除第i个观测值前后统计诊断量(如学生化残差si、Cook距离与似然距离等)的变化情况,来识别该点是否为异常点或强影响点,即是否应将该点从既定的数据集D中删除。利用逐步回归法或向后法的思想,通过观察删除第j个自变量前后回归系数和杠杆值等的变化情况来辨别第j个自变量是否对回归方程有显著意义,即决定删除或保留第j个自变量。而实际上不论是异常点或强影响点的识别还是自变量的选择,都是一个动态的、相互关联的过程。 本文在前人研究的基础上,借助均值漂移模型和逐步回归法的思想,对带有非齐性随机误差项的线性模型,当同时删除观测值和自变量的情形做了详细的分析。其主要目的是想探究每一个观测值对每一个自变量是否有贡献及贡献的大小。 本文将线性模型分四种情形进行研究,即全模型、选模型、全均值漂移模型和选均值漂移模型。然后,从第i个观测值的杠杆值、残差平方和、拟合值和偏F检验四方面,对选均值漂移模型进行影响分析。 首先,通过对第i个观测值的杠杆值的研究,发现选均值漂移模型第i个观测值(yi,xi[j])的杠杆值等于δ2ωij。δ2ωij表示第j个自变量对第i个观测值的杠杆值的贡献。选均值漂移模型投影矩阵的第i个观测值的势pωij(i)[j]表示删除第i个观测值前后拟合值方差的总改变量,且势的大小与ωii密切相关。 其次,通过对选均值漂移模型和全模型的残差平方和之差的范数的研究,得到一个n×k阶矩阵DRSSω。矩阵DRSSω的第ij个元素的正负性表示第i个观测值与第j个自变量对既定模型影响的大小,即如果其第ij个元素是负值,则表明对于既定模型,第i个观测值比第j个自变量更具有显著影响。 再次,通过对选均值漂移模型拟合值的分析,得出了选均值漂移模型预测值误差的标准化形式DPRDωij。 最后,通过四种模型之间的偏F检验,得出了各种情形的检验统计量。