论文部分内容阅读
近年来,随着计算机网络和物联网技术的普及应用和迅猛发展,我国农业与计算机技术的结合正在不断完善,其各个环节所产生的数据也在爆炸式增长。寻求有效的方法来分析和处理农业海量数据并从中获取有价值的信息,已经成为农业信息化发展的重要课题。我国的农业结构较为复杂,影响农作物产量的因素众多,涉及的领域也很广泛,这使得我国智慧农业平台迫切需要具备高效的农业大数据处理功能和产量预测功能。本文以江西省吉安市吉州区现代农业示范园为应用背景,研究了农业大数据处理的高可靠性和高效性,构建了结合全子集回归(Full Subset Regression,FSR)特征选择方法的人工神经网络(Artificial Neural Networks,ANN)产量预测模型,并详细分析了实际应用需求,设计了融合Spark的农业大数据处理与产量预测私有云平台。其中,农业大数据来源于农业示范园所采集的海量农作物生长环境数据,数据的分布式存储服务由闲置的计算机设备通过系统虚拟化并配置Hadoop集群来提供,分布式计算和数据管理服务由Spark、Hive等来提供,数据分析处理和农作物产量预测服务由Spark SQL、Spark MLlib来提供。本文实现了融合Spark的农业大数据处理与产量预测云平台,包括:搭建了高可靠完全分布式集群,解决了由主节点故障导致的平台无法工作问题;配置了Hadoop和Spark中的相关机制来实现相关的功能,在已采集的海量包菜环境数据中执行了SQL类型的高效处理,并能够得到产量预测实验所需的样本数据集,即本文所选取的十种产量影响因子数据集;且基于Spark MLlib实现了适用于该平台的FSR-ANN产量预测模型。本文通过实验并使用不同指标来分析和比较两种框架的处理效率以及两种产量预测模型的预测效果,实验结果表明:对于海量包菜环境数据的处理,在配置不同从属节点、输入不同大小的数据文件情况下,Spark SQL的处理效率均高于Hive SQL;对于十种影响因子的包菜产量预测,相较于ANN模型,FSR-ANN模型的相关系数值更高、均方根误差值更小、预测误差波动范围更小,即可获得更好的总体预测效果。本文所研发的云平台能够满足农业大数据处理和产量预测的现实需求,并对我国农业信息化发展有着重要的推动作用。