论文部分内容阅读
随着数字化时代的来临,石油钻井行业信息化建设快速发展,与钻井生产管理信息相关的数据呈指数级增长趋势,传统的钻井信息存储和查询系统已难以满足海量钻井数据存储和查询的统计分析需求。本文采用大数据的理论和方法,研究构建基于大数据的石油钻井信息优化查询系统,以进一步提高大数据环境下石油钻井信息的及时性和有效性。第一,分析探讨了传统关系型数据库分布式查询、Apache Hadoop Hive分布式查询和NoSQL数据库分布式查询目前存在的局限性和不足。指出面对大数据环境下,数据来源广、数据量大、数据类型繁多等现状,传统数据库查询系统缺乏有效的处理手段,Apache Hadoop Hive分布式查询操作则往往伴随着一些冗余且耗时的操作,而NoSQL数据库分布式查询的开发和维护工作过量大。第二,设计构建了一个基于大数据的石油钻井信息查询系统的总体框架。运用大数据理论方法,结合传统查询系统体系结构,设计构建一个基于大数据的,支持实时、并行、交互式查询的石油钻井信息查询系统体系结构和软件平台。第三,研究提出了大数据环境下钻井数据索引算法和Top-k优化查询算法。通过对Apache Kylin、Hive和HBase等进行整合,分别从数据模型的逻辑层和存储层入手,进行维度剪枝优化、编码优化、关键字RowKey设计优化,形成钻井数据索引算法和Top-k查询优化算法。第四,以石油钻井信息为背景,针对钻井生产中的数据特点,研发了基于大数据的石油钻井信息优化查询系统。该系统对查询业务的性能实现了高效的优化,减少和避免了诸多冗余操作,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒。