论文部分内容阅读
精准扶贫是我国全面建成小康社会的重要战略举措。随着我国扶贫工作取得显著成效的同时,不少贫困地区却长期存在着“扶贫、脱贫、再返贫”的怪圈现象。本文积极响应国家精准扶贫战略的号召,利用大数据分析技术,对我国脱贫户的返贫现象进行研究。在国家首个精准扶贫管理平台——甘肃省精准扶贫大数据管理平台的数据分析模块下,设计了基于Logistic回归分析的返贫预测模型。首先,对甘肃省扶贫办提供数据进行缺失值、异常值、数据变换等数据预处理工作,后续对返贫户的各项特征进行独立样本T检验,对显著性水平低于0.05的特征进行相关性检验,选取建模特征。其次,在Spark平台下,利用Logistic回归算法对现有返贫户进行分析,在不同比例训练数据下建立返贫预测模型,根据实验结果,对模型进行评估,选取预测准确率为86.43%的最优模型对2017年脱贫户进行返贫预测。最后,利用K-means聚类算法对预测出的返贫人群进行聚类,选取最优K值建立返贫人群聚类分析模型。通过聚类结果,观察各类返贫人群在各项特征上的差异,分析各类返贫户可能返贫的原因,对不同类别返贫人群成立相应的扶贫调查小组,制定有效、有针对性的帮扶措施,使脱贫户彻底摆脱返贫的厄运。