论文部分内容阅读
变量的测量误差问题可以在包括经济学、流行病学、工程学等在内的几乎所有的应用领域里出现,而人们在进行数据分析时这些误差常常被忽略,其原因可能是测量误差均非已知,而无从列入,但是如果误差太大,则所得结果的分析与推断将会受到很大的影响。 自变量的测量误差问题会带来统计模型系数估计的有偏甚至不一致等严重后果,所以对统计模型中此类问题的研究一直是一个理论热点。Cook,J.R.和Stefanski,L.A.(1994)最先提出的模拟外推法(SIMEX)是解决此类问题的一种有效方法,能够得到所需估计参数的渐进一致估计量。经典的SIMEX估计方法有如下两个优点:①操作实施起来方便,只需要大量的计算机模拟计算;②应用广泛,在不同类型的统计模型中均能得到广泛的应用。 然而,在测量误差模型的参数估计中,运用SIMEX估计方法时有些问题仍需要做深入的研究。本文通过计算机模拟的方法,对SIMEX方法在不同误差分布、不同的可信率大小以及不同统计模型中的表现进行讨论,得出前人没有研究过的成果,主要结论有以下几点: ①相比较于不考虑数据测量误差问题时的Naive估计值,SIMEX估计值的估计精度更高,这在线性测量误差模型和非线性测量误差模型中的模拟实验中都得到了验证,并且对于测量误差服从多种不同的分布类型时也都有这样的结论成立。 ②不同的可信率时,SIMEX方法的系数估计在偏差纠正方面的效果是不同的,通过本文模拟实验的结果可以看出,当可信率取值的范围为[0.3,0.7]时,相比较于Naive估计,提升的效果更加明显。 ③从线性和非线性模型中SIMEX估计值的均方根误差角度来看,非线性模型需要有比线性模型更大的样本数据才能够保证SIMEX方法更好的估计效果。通过模拟实验的结果来看,可信率在0.7左右时RMSE提升得最多,在区间[0.3,0.9]时提升效果明显。 ④从分布类型对SIMEX估计效果的影响来看,总的来说,就SIMEX估计效果而言,线性测量误差模型中,测量误差服从正态分布时比服从其他分布的效果更好;而在非线性测量误差模型中,不同的分布类型下SIMEX估计的效果没有过于明显的差别。 本论文共分为五章:第一章为导论,主要介绍选题背景和意义,相关文献研究结果,研究思路以及主要创新点;第二章为测量误差模型相关理论方法,主要论述测量误差的有关理论,线性测量误差模型和非线性测量误差模型这两种模型形式,以及测量误差模型参数估计中的几种方法;第三章主要为SIMEX方法在线性测量误差模型中的模拟实验,选取含有一个误差变量的多元线性测量误差模型,考虑模型在不同误差可信率、不同误差分布情况下SIMEX方法的应用效果;第四章主要为SIMEX方法在非线性测量误差模型中的模拟实验,选取自变量中带有测量误差问题的logistic回归模型,同样也是考虑模型在不同误差可信率、不同误差分布情况下SIMEX方法的应用效果;第五章为结论、建议和不足,总结模拟研究得出的主要结论,分析文章的不足之处并且指明以后论文的研究方向。