论文部分内容阅读
钻井智能化是未来发展的必然趋势,油气钻井数据正以前所未有的速度增长,加上油气信息分布广泛的特点,如何对海量数据进行存储和利用是油气钻井作业中亟需解决的问题。比如对海量异构数据的存储和抽取转换方式,分布式存储的数据同步方法,处理海量数据的运算方式等。本文提出了一种基于Hadoop的油气信息分布式数据仓库模型,为解决以上问题提供了一个指导方案,所做工作有以下四个方面:首先,提出大数据环境下油气信息分布式数据仓库模型。基于油气信息的特点,结合Hadoop理论知识,提出通过HDFS实现海量油气钻井信息的存储,Hive数据仓库实现数据的大规模并行查询,MapReduce实现数据的大规模并行运算,HBase提供信息的实时服务,运用Sqoop技术与关系数据库进行信息交互。其次,对基于Hadoop的油气信息分布式数据仓库的设计。包括数据仓库主题及主题域的设计,事实表和维表的设计,数据模型的设计和数据粒度的设计,并且对数据抽取、转换和装载的过程进行论述。然后,针对海量油气钻井信息的特性对各个部分进行了优化,包括HDFS存储的优化,MapReduce运算的优化,基于Hive的油气钻井信息分布式数据仓库数据查询的优化和HBase存储的优化。最后,设计并实现了基于Hadoop的油气钻井信息分布式数据仓库系统,搭建一个Hadoop集群并且对钻井数据进行分布式存储和分析,并且设置传统方式的数据仓库作为对比组,分别对不同数据量的钻井数据进行查询运算,通过控制变量数据量的大小与运算时间绘制折线图,得出结论。