抽样调查无响应问题研究

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:limiao912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抽样调查中的无响应问题,是影响调查信度和数据品质的重要因素之一。无论是入户访问或街头拦截等面访调查,还是基于互联网介质的在线调查,受访者面对调查问卷的无响应行为均受到多源复杂因素影响。抽样调查中,不仅要在设计阶段采用科学的抽样方案和技术以降低抽样误差,而且要在调查执行阶段充分关注受访者无响应带来的深远影响。受访者对调查问卷或者问题的无响应,主要有两个来源,一是随机无响应,二是主观无响应。随机无响应可以通过抽样设计做出积极的改进和规避,而主观无响应可能来自受访者对调查主题的敏感程度、隐私保护意识或者对调查本身的价值判断。同时,样本群体的复杂度、样本单元的流动性、调查环境等外部要素也对无响应问题有较大影响。因此,仅仅采用问卷回收率、响应率等传统指标来评估抽样调查的质量和数据质量显然是不够的。来自流动人口的抽样调查具有典型性。流动人口是在中国固定户籍制度背景下产生的一个特殊群体,为中国经济社会的发展做出了重大的贡献。流动人口的抽样调查受到复杂的社会经济因素影响,无响应问题比较突出,导致调查数据不可避免地出现缺失,影响了数据质量。本文以流动人口抽样调查中出现的项目无响应问题为切入点,深入分析了抽样调查中的无响应问题,对主观无响应的成因进行了剖析,阐述了由此造成的数据缺失的机理和数据插补方法,并以流动人口调查数据为研究对象,对流动人口抽样调查中的代表性响应进行了测度,以达到评估调查质量的目的,同时就如何处理流动人口抽样调查中的项目无响应问题进行深入研究。第二章是本文的逻辑起点,对抽样调查中的无响应问题造成的数据缺失的机理进行了详细分析,为无响应问题的研究提供理论基础。第三章是项目无响应的处理方法研究,为项目无响应问题的处理提供方法论支持。第四章阐述了我国流动人口抽样调查的方案设计,是研究流动人口抽样调查中的项目无响应问题的基础,从抽样设计的角度反思出现项目无响应的原因。第五章是流动人口调查中项目无响应插补的实证研究,从实证角度测度流动人口抽样调查中的项目无响应问题,并基于单插值方法、多重插值方法和结构逻辑插值方法对流动人口抽样调查中的缺失数据进行插值;第六章是对流动人口抽样调查中项目无响应问题研究的相关结论、政策建议和研究展望。本文在抽样调查中的无响应问题及数据插补方法等方面,主要做了以下四个方面的工作:第一,深入探究了抽样调查中的无响应问题引致的数据缺失的机理。调查中受访者的无响应行为必然引起数据缺失,解决数据缺失问题首先是要识别引起受访者无响应的数据缺失机制。本文详细分析了完全随机缺失(missing-completely-at-random,MCAR)、随机缺失(missing-at-random,MAR)和非随机缺失(not-missing-at-random,NMAR)三种数据缺失机制,这是后文进行无响应问题研究的理论基础。无响应产生的后果是使总体特征估计量有偏,本文将无响应与抽样理论相结合探究了无响应对总体特征估计量的影响。第二,进一步完善了R统计量对抽样调查质量评估的理论基础和应用方法,设计了抽样调查质量评价的R算法,构建了抽样调查评估的一类新体系。关于抽样调查质量的探讨,现有文献主要集中在使用响应率对抽样调查质量进行评估,响应率越高,响应样本的代表性越强。但相关研究表明,响应率和响应样本的代表性之间没有必然关系,而R统计量可以测度响应样本的代表性,可以在更深入和细致的问题层面描述和估计调查质量。本文将R统计量视为响应率的重要补充指标,对测度响应代表性的R统计量和偏R统计量进行了扩展,构造出R统计量的标准误差和置信区间,最后基于2017年的中国流动人口动态监测数据进行了实证分析,完善了R统计量的落地与应用。本文同时编写了实现R统计量和偏R统计量的计算机程序。值得说明的是,表示响应代表性的R统计量和偏R统计量是对现有文献的统一整合,R统计量的标准误差和置信区间的计算是本文完成的对R统计量测度的重要补充。第三,对项目无响应的处理方法进行了系统研究。插值方法是处理项目无响应的常用方法,首先详细分析了插值方法的理论机制,然后对现有的单插值、EM插值、多重插值和分数插值方法进行了系统比较,并探讨了现有插值方法的适用条件和优缺点,最后提出了结构逻辑插值方法。本文设计的结构逻辑插值方法是包含分类插值、关联插值和多重取优插值的一个综合插值方法;结构逻辑插值方法是问题导向的插值方法;结构逻辑插值方法是抽样学习的一个方法,通过机器学习中的算法学习到分类规则、关联规则、多重取优规则,或更具体地说,通过抽样学习的方法,学习到个体的群特征、统计特征和个体行为特征,并基于这些特征对缺失样本进行插值,本文根据这个理论构建了项目无响应插值的完整体系。第四,从实证角度对流动人口调查中的项目无响应问题进行了测度,从而评估无响应对流动人口抽样调查质量的影响,然后基于单插值方法、多重插值方法和结构逻辑插值方法对影响流动人口居留意愿中的缺失数据进行了插值,并从不同角度对各种插值方法的效果进行了评估。具体来说,除了使用传统的方差比较的方法及将插值后的数据与原始数据进行对比的方法比较各种插值方法的效果外,本文提出在结构逻辑插值分析中使用Kappa一致性分析用于比较各种插值方法的优劣。抽样调查中的无响应问题直接导致不同程度的数据缺失,在不同程度上影响了抽样调查的质量。本文的创新之处在于完善R统计量的理论基础和算法设计,将R统计量作为响应率的补充指标来评估抽样调查中的无响应问题,从而评估抽样调查的质量,进一步改进了多重插值方法,最后提出新的结构逻辑插值方法对抽样调查中的项目无响应问题进行插值和评估。
其他文献
冷链运输可以有效保证食品安全和减少食物浪费。冷藏车作为冷链运输主要设备之一,在冷链物流中起到了至关重要的作用。冷藏车厢内温度场不均匀是导致食品腐败变质的主要原因,冷藏车必须保证有适宜的温度环境,最大限度的保证易腐产品质量。本课题主要对冷藏车厢内温度场分布规律进行研究,提出多风机送风模式的温度场优化措施,并对不同货物堆码高度下的风机运行方案进行了研究,得出最优风机运行策略;提出了当环境温度改变时,风
学位
发展生产性服务业是促进我国产业园区转型升级的重要途径,而生产便利性是产业园区持续发展的核心推动力。产业园区中的生产性服务业如何配置,生产便利性如何提升,产业园区服务设施失配如何解决,都是在新时期发展政策下亟需的规划思考。当下多数的产业园区空间布局以及生产性服务便利的研究成果,鲜有将城市居民集中区的“邻里中心”模式和“邻里单位”概念转移至产业园区的空间配置研究中,本研究通过邻里中心模式的理论与案例分
【目的】通过对比研究BIS指导下丙泊酚闭环与开环靶控输注模式对沙滩椅位肩关节镜手术患者围术期的影响,进一步探讨丙泊酚闭环靶控输注模式的优势性,及其在此类特殊手术体位
近十几年来,我国高铁事业蓬勃发展,成为世界上运营速度最快与运营里程最长的国家之一,高铁建设给沿线城市带来巨大的发展机遇。高铁站选址多位于城市新区,大多数城市依托高铁站的建设规划了作为城市门户形象的高铁新区。伴随着高铁新区的快速发展,新区建设中各种问题也日益显现,尤其体现在缺乏对高铁新区空间形态的整体把握,诸如空间格局不清晰、用地布局混乱、交通组织较差、建筑形态千篇一律、开放空间不成系统等方面。基于
学位
当今信息时代背景下,产业分工不断演化的同时,产业融合亦成为产业发展的主要趋势,产业间技术融合被称为产业融合的核心。实践中,基于企业的技术研发而发生的产业间的技术“跨
从“增量扩张”转向“存量规划”被认为是我国目前发达地区的城市空间发展战略。老城中心区难以满足现代城市生活需求,又往往面临着物质性老化、功能性衰退、交通拥堵和空间活力下降等问题。老城中心区的更新是城市更新中最复杂、最具影响力的更新,与城市的结构、功能、定位相关。因此,如何更新老城中心区并且重新焕发其活力,成为目前亟待解决的问题。论文针对我国城市目前所处的困境,结合存量规划的背景和城市更新的理论,研究
创新是驱动经济发展的重要动力,对促进全要素生产率提升具有积极作用。地区实现创新驱动有赖于区域创新生态系统的构筑与优化,要求在地区形成一个要素关联、多重互动、协同发
资源型区域经济增长缓慢、遭遇“资源诅咒”制约着中国区域协调发展的实现。党的十九大报告明确指出“支持资源型地区经济转型发展”,而产业转型升级是资源型区域经济转型的
“乡村建设”成为新时期乡村振兴的重点任务,补齐短板区势在必行。乡村建设,要坚持规划先行,村庄规划是乡村振兴与乡村建设中不可或缺的行动纲领。皖北地区作为乡村振兴的短板区——传统农区,村庄规划实践问题突出,这就需要对以往皖北地区村庄规划实施情况进行评价与反思,及时发现规划实施过程中存在的问题,以更好地加快乡村振兴的进程。村庄规划实效评价可以有效检测规划实施情况并发现规划实施结果中存在的问题。但通过相关
学位
在我国,房地产行业是国民经济的支柱性行业,在推动国民经济发展中发挥着重要的作用。在很长一段时间内,我国的房地产行业飞速发展。而到“十二五”期间,随着国家一系列宏观调控政策的出台,房地产行业的发展受到一定的限制。2016年年底,中央经济工作会议提出的“房子是用来住的,而不是用来炒的”,以及“限购”政策,使得房地产开发商的利润空间受到大幅压缩。在整个房地产行业都不景气的环境下,一部分中小型企业不得不宣