论文部分内容阅读
扶贫开发工作是我国政府当前和今后一段时间的重点任务。在大力推进精准扶贫的背景下,研究脱贫户的特征和脱贫影响因素,有助于明确精准扶贫未来开展方向和思路。本文使用2016年江西贫困退出户核查问卷调查及国家统计局开展的2011-2015年江西城乡住户调查数据,选取了家庭人口、收入结构、耕地、消费等指标,经过数据筛选和预处理后,进行基于可视化技术的探索性分析。采用数据挖掘技术,利用五折交叉验证的方法对决策树,随机森林,boosting,神经网络等九类模型进行性能的可靠估计,选取随机森林为最优模型,并确定该模型的最优参数,遴选出影响农户脱贫的主要因素。同时,采用基于网络优化的支持向量机和基于粒子群优化的RBF模型两个组合模型,对脱贫进程即当前贫困发生率进行了预测,验证了两种组合模型的优势和有效性。本文的研究思路:第一步,整理9000多户贫困退出户核查问卷数据,选取部分调查指标,对数据进行预处理和匹配性分析。第二步,整理2011-2015年城乡住户调查数据,根据脱贫核查问卷,选取同样的调查指标检索出全省所有农村调查户,并对数据进行预处理。第三步,采用数据挖掘技术,基于多种方法(决策树,随机森林,boosting,神经网络等九类模型),遴选出影响农户脱贫的重要因素,并予以分析。第四步,结合脱贫因素分析结果,对2011-2015年脱贫进程进行预测分析,并与实际结果对比。研究结果表明,家庭经营第一产业收入占比、各类扶贫补贴收入、转移净收入占比、水稻种植面积、家庭人口是影响农户脱贫的最主要因素。本文提出基于城乡住户调查数据的脱贫进程预测模型切实可行,可对本地区的贫困进程提前进行有效判断。本文针对脱贫户的分析为推进精准扶贫工作提供了建议,并为城乡住户调查数据资料的开发利用提供了一种新的思路。