论文部分内容阅读
随着企业级大数据的迅速发展和智能燃气网概念的普及,在大数据环境下对燃气数据进行有效的分析并挖掘其中价值显得尤为重要。目前,基于燃气大数据的分析需求主要分为两个主要方面,一是针对大量数据的查询和处理需求,二是在大数据环境下以燃气负荷预测为代表的更深层次数据分析需求。 本文围绕大数据环境下的燃气数据分析问题,在讨论和研究了分布式平台技术和机器学习理论的基础上,进行了以下几方面的研究工作: (1)根据燃气大数据背景及特点,设计了一个基于分布式系统Hadoop的燃气大数据分析平台框架,框架采用分层结构,上层提供数据分析结果供应用及业务使用,下层提供数据计算和存储的支持。 (2)针对大量燃气数据的查询和处理问题,深入研究了两个分布式查询引擎Hive和Impala,在分析了其各自优势与局限的基础上,提出了基于Hive与Impala相结合的方案解决大数据的查询处理问题。本文使用了大数据基准测试TPC-DS对Hive、Impala以及关系型数据库MySQL一同进行了不同数据量的数据查询处理性能基准测试,结果表明,SQL-on-Hadoop分布式查询引擎在大数据量场景下相较关系型数据库系统RDBMS具有更快的查询速度,同时,Impala相较Hive的查询速度更快,但受制于内存大小限制不够稳定,因此Hive与Impala相结合的方案更适合大数据场景。 (3)针对燃气负荷预测问题,提出了一种增量式的随机森林回归算法IRFR,该算法对传统随机森林算法RF进行了改进,通过在叶节点储存样本集并控制其分裂的方式,支持样本增量到达的场景,针对大数据量的情况,设计了样本丢弃策略控制内存空间占用。在对相关数据进行数据预处理、特征选择、提取并建模后,将IRFR应用于燃气负荷预测。实验结果表明,在样本分批读入的增量学习场景下,IRFR和RF相比具有相当准确率的同时,所需训练时间较短,更适用于大数据量的增量学习场景。