论文部分内容阅读
目的:为了调查总体在不同时间上的水平及其变化、累计或平均水平,须采用连续调查。众多医学参考值已不能代表现时变化了的指标水平。流行病学队列研究中,因研究时期长样本脱落多,需要设计合理的样本轮换方法、提供正确的统计分析公式。我国建立的统计调查体系正是以经常性的连续调查为主体。对固定样本进行多次调查存在代表性下降和样本疲劳两个严重问题;在不同次调查中重新抽取不同的新样本,也存在另几个严重问题:如不能很好反应总体在不同时间的变化,不能利用固定样本的前期资料对现期总体作出精度较高的回归组合估计,与固定样本相比,调查费用、时间、难度更高等等。为了权衡这两方面的问题,国内外的统计学家早已研究出样本轮换(在样本容量不变的前提下,每隔一定时间更换部分样本单位)的好方法。样本轮换(sample rotation)由于既保留了部分原有样本单位,又增加了部分新样本单位,所以兼有全新样本与固定样本的优点,能在抽样费用与抽样精度之间取得平衡,是减少和控制非抽样误差的重要手段。国内外对一次性(横断面)抽样调查的统计方法研究较多,理论及方法比较成熟;对于连续抽样调查的统计方法,主要局限于对简单随机抽样调查中的样本轮换问题的研究,而对实际调查中常需采用的各种复杂抽样下样本轮换的统计方法研究甚少。鉴于此,本文第一部分,分别对分层简单随机抽样下样本轮换连续调查、整群抽样下样本轮换连续调查、分层整群抽样下样本轮换连续调查、两阶段抽样下样本轮换连续调查、分层两阶段抽样下样本轮换连续调查、分层两阶段整群抽样下样本轮换连续调查六种连续调查方法的相应统计量计算公式,进行推导证明,填补相应空白。本文第二部分对某核电站职工的血液学指标开展两阶段抽样下样本轮换的连续调查,为中国核电站职工健康状况的评价及探讨其健康危险因素提供可靠有效精度高的数据;对某市中小学生的体质指标开展分层整群抽样下样本轮换的连续调查,为中小学生的体质评价提供可靠有效精度高的数据;同时通过实例调查与统计,说明本文研究的连续调查方法及其统计公式的实际应用效果。第三部分对本文研究的六种复杂抽样下样本轮换的连续调查方法及其公式,进行大样本个数的计算机模拟抽样调查与统计分析,对本文所研究的连续调查方法及其统计公式进行效度、信度评价。方法:在调查方法的设计及统计公式的推导证明中:统计抽样的理论方法、回归估计的理论方法、比率估计的理论方法、连续调查的理论方法、样本轮换的理论方法及概率统计的基本理论方法被应用;分层简单随机抽样、整群抽样、分层整群抽样、两阶段抽样、分层两阶段抽样、分层两阶段整群抽样六种复杂的抽样方法被采用。在实例调查中,本文研究的调查方法及其统计公式被使用,区间估计与Z检验的方法被采用。在效度信度评价中,运用了效度、信度的评价方法,计算机模拟方法、SAS的基本知识、计算机编程技术与区间估计等方法。结果:1.对分层简单随机抽样下样本轮换的连续调查,设计出调查方法并推导出总体均值的估计量及其方差与估计方差、最优样本轮换率、最优组合估计权数的计算公式。对全部统计公式编写出SAS计算程序。2.对整群抽样下样本轮换的连续调查,设计出调查方法并推导出总体均值估计量及其方差与估计方差、最优样本轮换率、最优组合估计权数的计算公式。对全部统计公式编写出SAS计算程序。3.对分层整群抽样下样本轮换的连续调查,设计出调查方法并推导出总体均值估计量及其方差与估计方差、最优样本轮换率、最优组合估计权数的计算公式。对全部统计公式编写出SAS计算程序。4.对两阶段抽样下样本轮换的连续调查,设计出调查方法并推导出总体均值的估计量及其方差与估计方差、最优样本轮换率、最优组合估计权数的计算公式。对全部统计公式编写出SAS计算程序。5.对分层两阶段抽样下样本轮换的连续调查,设计出调查方法并推导出总体均值的估计量及其方差与估计方差、最优样本轮换率、最优组合估计权数的计算公式。对全部统计公式编写出SAS计算程序。6.对分层两阶段整群抽样下样本轮换的连续调查,设计出调查方法并推导出总体均值的估计量及其方差与估计方差、最优样本轮换率、最优组合估计权数的计算公式。对全部统计公式编写出SAS计算程序。7.于2009-2011年采用二阶段抽样下样本轮换连续调查3次,每次调查9个处、3次共调查619人次,估计出某核电站职工血液学指标(以白细胞WBC为例)各年度样本均值及其估计方差,指标变量2009年与2010年间、2010年与2011年间的回归系数与相关系数,最优样本轮换率,最优组合权数,总体均值的估计量及其估计方差;估计出2010年和2011年总体均值的95%置信区间分别为(5.40,6.36)和(5.34,6.34),对该总体均值估计量与一般成人总体均数的差异进行了假设检验得p<0.05,提示该核电站职工白细胞低于一般成人水平。8.于2010年10月和2011年6月采用分层整群抽样下样本轮换连续调查2次,两层两次共调查中小学生1971人次,估计出某市中小学生体质指标(以肺活量为例)前、后期样本均值及其估计方差,指标变量两期间的回归系数与相关系数,最优样本轮换率,最优组合权数,总体均值的估计量及其估计方差;估计出2011年总体均值的置信区间为(2065,2374),对该总体均值估计量与全国总体均数的差异进行了假设检验得p>0.05,提示该市中小学生肺活量与全国中小学生平均水平相当。9.对分层简单随机抽样下样本轮换的连续调查,分别在10%、40%两种抽样比下,各计算机模拟抽样100个样本的调查分析结果:100个总体均值的95%可信区间几乎均包含模拟总体均数。10.对整群抽样下样本轮换的连续调查,分别在10%、40%两种抽样比下,各计算机模拟抽样100个样本的调查分析结果:100个总体均值的95%可信区间几乎均包含模拟总体均数。11.对分层整群抽样下样本轮换的连续调查,分别在10%、40%两种抽样比下,各计算机模拟抽样100个样本的调查分析结果:100个总体均值的95%可信区间几乎均包含模拟总体均数。12.对两阶段抽样下样本轮换的连续调查,分别在仅次级单元样本轮换、初级与次级单元样本均轮换两种轮换方式与次级单元按10%、40%两种抽样比组合的四种情况下,各计算机模拟抽样100个样本的调查分析结果:100个总体均数的95%可信区间几乎均包含模拟总体均数。13.对分层两阶段抽样下样本轮换的连续调查,分别在次级单元按10%、40%两种抽样比下,各计算机模拟抽样100个样本的调查分析结果:100个总体均值的95%可信区间几乎均包含模拟总体均数。14.对分层两阶段整群抽样下样本轮换的连续调查,分别在次级单元按10%、40%两种抽样比下,各计算机模拟抽样100个样本的调查分析结果:100个总体均值的95%可信区间几乎均包含模拟总体均数。15.本文所研究的六种复杂抽样方法下,样本轮换的连续调查与固定样本的连续调查相比,在10%的抽样比下,除两阶都轮换的两阶段抽样外,其余样本轮换的抽样方法抽样精度均较固定样本的抽样方法精度高;在40%抽样比下,除分层两阶段整群抽样精度次于固定样本、两阶段抽样精度等于固定样本外,其余样本轮换的抽样方法抽样精度均较固定样本的抽样方法精度高。结论:本文研究的六种复杂抽样下样本轮换的连续调查方法及其统计公式,科学可行、参数估计精度高,具有创新性和较大的理论与实际意义。本文调查的某核电站职工血液学指标(以白细胞WBC为例)低于一般成人的平均水平,提示核电站的工作环境对职工的健康可能有影响,应加强核电站的辐射防护;本文调查的某市中小学生体质指标(以肺活量为例)与全国的平均水平相同。本文研究的六种复杂抽样下样本轮换的连续调查方法及其统计公式效度高信度高。