论文部分内容阅读
无回答是社会调查中的普遍问题,是影响调查数据质量的重要因素。在抽样调查实践中,无回答很难避免,而且可能会造成参数估计的系统偏差,这种偏差不会随样本量增大而减小。调查之前严谨细致的预防措施只能有效减低无回答率,并不能彻底解决无回答。针对无回答,追加调查单元的再抽样往往会导致调查费用增加,调查时间延长。插补法在不追加样本数据的前提下,充分利用样本信息,是目前解决无回答的主要方法之一。插补法包括单重插补法和多重插补法。单重插补法给出无回答的单个插补值,不能估计参数估计量的误差。多重插补法给出同一无回答的多个插补值,并给出参数估计量的误差,弥补了单重插补法的缺陷。其中, Data Augmentation插补法是一种应用很广泛的多重插补方法之一。论文总结了常用插补法的优良性,并对MCMC多重插补法的统计性质进行了模拟研究。针对无回答,先用DA插补法进行多重插补,再估计线性模型系数,给出了回归系数估计量的偏差和均方误差。本文考虑的影响因素有无回答率、无回答机制、插补重数。无回答机制包括完全随机无回答、随机无回答、非随机无回答。无回答率选择5%、15%、25%、35%、45%。插补的重数选择为5、15、25、35、45。模拟结果显示,在完全随机无回答机制下,当插补重数较小时,回归系数估计量的偏差和均方误差都比较小。随着插补重数增加,回归系数估计量的偏差和均方误差减小幅度小。此时,建议选择的插补重数为5至15。在随机无回答机制下,随着无回答率增加,回归系数估计量的偏差和均方误差有增加趋势。随着插补重数增加,回归系数估计量的偏差和均方误差有减小趋势。此时,选择较高的插补重数在多数情况下会得到更好的估计量,建议选择的较大插补重数为35至45。在非随机无回答机制下,插补重数为5的估计量精度较好。随着插补重数增大,估计量精度没有提高趋势。此时,建议考虑选择多个插补重数进行比较。