论文部分内容阅读
物联网在农业信息化中的推广,庞大的传感器和RFID节点,能够更好地对生产环境中的信息进行监控,但是,它们采集的数据量规模会越来越大,数据会出现海量冗余,会对我们后续的业务处理任务造成了一些影响,不仅有性能瓶颈等问题,还会导致输出结果不可信。如此巨大规模的数据,是传统的数据处理方法遇到的难题,而随着大数据时代的步伐,出现了很多大数据计算框架,如Hadoop、Storm、Spark,很多企业选择它们,并做出了成功的案例,它们也相继被应用在农业大数据领域。根据数据的特点和使用场景,选择合适的处理工具,是进行数据处理必须要考虑的因素。对高度冗余的数据如何做预处理,对大数据做处理分析的系统如何做到健壮高效,都是不可忽视的细节。本文依据实践经验,基于农业系统中数据的数据流向和数据特征,根据Spark处理分析数据时的机制,从减少数据冗余,并从做大表关联优化的问题入手,提出了基于BloomFilter的数据过中间件,提出了Spark大表关联优化方法。本文的主要研究工作如下:(1)基于物联网的农业数据采集端,采集的数据往往海量冗余,给后面的分析处理带来了一定问题,本文根据BloomFilter过滤数据的优点,在基于BloomFilter的基础上提出了对冗余数据进行过滤的优化方法。(2)针对Spark这个大数据计算框架能够进行流式数据处理,能够处理基于物联网的农业数据流并且符合实时性要求,但是面对很大的两表进行连接操作时通常表现的效率不高和面对数据倾斜时造成的问题,给出了一个优化方法。(3)将以上的优化方法运用于实际应用中。设计了一个基于Spark和农业物联网的系统模型,该模型中主要结合了上述1和2中优化方法,并对该系统模型进行了可行性分析和流程说明。