大数据环境下的燃气数据分析研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:fengxiaogang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业级大数据的迅速发展和智能燃气网概念的普及,在大数据环境下对燃气数据进行有效的分析并挖掘其中价值显得尤为重要。目前,基于燃气大数据的分析需求主要分为两个主要方面,一是针对大量数据的查询和处理需求,二是在大数据环境下以燃气负荷预测为代表的更深层次数据分析需求。  本文围绕大数据环境下的燃气数据分析问题,在讨论和研究了分布式平台技术和机器学习理论的基础上,进行了以下几方面的研究工作:  (1)根据燃气大数据背景及特点,设计了一个基于分布式系统Hadoop的燃气大数据分析平台框架,框架采用分层结构,上层提供数据分析结果供应用及业务使用,下层提供数据计算和存储的支持。  (2)针对大量燃气数据的查询和处理问题,深入研究了两个分布式查询引擎Hive和Impala,在分析了其各自优势与局限的基础上,提出了基于Hive与Impala相结合的方案解决大数据的查询处理问题。本文使用了大数据基准测试TPC-DS对Hive、Impala以及关系型数据库MySQL一同进行了不同数据量的数据查询处理性能基准测试,结果表明,SQL-on-Hadoop分布式查询引擎在大数据量场景下相较关系型数据库系统RDBMS具有更快的查询速度,同时,Impala相较Hive的查询速度更快,但受制于内存大小限制不够稳定,因此Hive与Impala相结合的方案更适合大数据场景。  (3)针对燃气负荷预测问题,提出了一种增量式的随机森林回归算法IRFR,该算法对传统随机森林算法RF进行了改进,通过在叶节点储存样本集并控制其分裂的方式,支持样本增量到达的场景,针对大数据量的情况,设计了样本丢弃策略控制内存空间占用。在对相关数据进行数据预处理、特征选择、提取并建模后,将IRFR应用于燃气负荷预测。实验结果表明,在样本分批读入的增量学习场景下,IRFR和RF相比具有相当准确率的同时,所需训练时间较短,更适用于大数据量的增量学习场景。
其他文献
该文设计了一个基于ORP的J2ME虚拟机——ORPME(Open Runtime Platform Micro Edition)以及一个运作在ORPME之上的J2ME CLDC(Connected Limited Device Configuration)类库—
本文总结了作者的研究工作及成果,主要包括以下内容:详细介绍了SAN的概念、特点和当前应用,并对其存储方式、物理架构以及逻辑架构进行了分析,并介绍了SAN的实现所涉及的一些
山西是全国以至全世界水资源奇缺的地区之一,万家寨引黄入晋工程是一个牵系全国的大工程,工程规模仅次于三峡和小浪底,是中国目前在建的第三大水利工程;是从根本上解决山西水资源
受启发于各种自然现象的智能算法已成为当下热门的研究课题,尤其在解决复杂的大规模问题时,智能算法具有极强的有效性。目前,智能算法受到广泛关注,已成功应用于系统优化、工程设
车辆牌照的自动识别是数字图像处理技术与模式识别技术在交通信息系统中的重要应用。随着交通管理信息化的快速发展,车辆牌照识别技术已经成为当前研究的一项重要课题。由于现
我国电子病历系统经历了近20年的发展,如今已保存了大量珍贵的病人就诊数据。通过对电子病历进行统计分析,可以为医生提供决策辅助与支持。但由于电子病历使用传统的关系数据库
随着地理信息系统(Geographic Information System,简称GIS)应用范围的不断扩大,发展WebGIS,实现地理信息的网络化是当前的迫切需要.基于WebGIS的发展现状,研究利用下一代分
本文介绍了一个基于Linux和XIM协议的输入法服务器Zhhzinput的设计与实现,并以纵横汉字输入法为实例,具体介绍了如何在Zhhzinput上实现一个输入法。 首先给出了课题背景和课
随着信息时代的发展,电子信息产品已经成为现代化信息社会文明与进步的标志,人们对它们的需求也逐年增大.从上世纪90年代以来,电子信息类产品的开发明显出现了两个特点:一是
在计算机网络和信息的安全防护方面,防火墙是最基本,也是最有效的网络安全设备,其往往是多种网络安全技术的集中体现.访问控制技术、策略管理技术、审计管理技术、认证技术、