论文部分内容阅读
贫困是一个复杂的现实社会问题,造成农民贫困的影响因素多样,通过分析贫困户数据特征,挖掘多影响因素中关键影响以及驱动因素,建立扶贫预测模型,对于精准扶贫具有重要的意义。扶贫数据来源广泛(贫困户基本信息、医疗机构、社保、教育等等)、类型多样、更新速度快,有力地促进了扶贫政策落实,同时,也产生了海量的精准扶贫数据。如何从这些丰富的扶贫大数据中挖掘出对脱贫攻坚战有价值的信息,是精准扶贫工作面临的挑战之一。本文从扶贫对象和扶贫措施两个角度出发,对甘肃省精准扶贫大数据进行挖掘分析,通过机器学习的方法展开了以下两个方面研究。基于BP神经网络(Back-Propagation Neural Network,BPNN)的扶贫对象精准贷预测模型,目的在于预测扶贫对象是否可以获得精准扶贫专项贷款(精准贷),为具有发展产业潜力但因资金短缺的贫困户提供资金保障。随着高维度的精准扶贫数据以指数级速度增长,传统训练BPNN的方法在训练精准贷预测模型过程中收敛慢、效率低以及容易陷入局部最优。虽然已经有大量的学者提出分布式并行训练BPNN,但还是存在以下问题:(1)如何从各自的分片中找到全局最优解;(2)如何避免在模型训练过程中陷入局部收敛。针对以上问题,本文提出一种基于Spark的BP神经网络精准贷预测模型进化训练方法,将模型训练过程中产生的局部权阵经过筛选形成初始种群,通过遗传算法进化增强全局收敛能力,选择适应度最高的个体作为下次迭代的初始权阵。这样不仅可以减少全局寻优的迭代次数,而且在高维度的扶贫数据集上可以有效的避免陷入局部收敛。实验表明,该方法提升了基于BP神经网络的扶贫对象精准贷预测模型的收敛速度和预测精度。基于FCM(Fuzzy C-Means,模糊C均值)的扶贫措施精准推荐模型,目的在于向贫困户精准推荐可以增加自我生产能力和创建经济来源的帮扶措施,使他们具有脱贫致富的“造血”能力。目前,很多FCM聚类模型训练方法在处理大数据集时面临着较高的时间复杂度和空间复杂度等问题,导致很难在单机上完成扶贫措施精准推荐模型的训练,从而影响在现实中的应用。针对以上问题,本文提出一种新颖的FCM扶贫措施精准推荐模型训练方法,结合Spark内存迭代并行计算框架,将多个扶贫数据分区并行训练得到多个FCM推荐模型,每个模型的输出是多个聚类中心以及对应的帮扶措施集合。在每个聚类中心的帮扶措施中,每种措施都具有各自的占有比。最终精准推荐的扶贫措施是多个FCM推荐模型投票产生的结果。实验表明,本文提出的扶贫措施精准推荐模型训练方法在时间、准确度、加速比以及可扩展性等方面具有潜在的优势。综上所述,本文通过集成现有多源异构的大规模贫困户数据,结合机器学习分析方法,构建基于BP神经网络的扶贫对象精准贷预测模型以及基于FCM的扶贫措施精准推荐模型。通过对扶贫大数据的多维度建模分析,为精准扶贫工作提供了多层面的可靠的理论支持,对提升扶贫决策的精准度、有效性等方面具有参考意义。