论文部分内容阅读
在21世纪的今天,能源问题成为了一个严重影响人们生产和生活的问题。目前的国内形势来看,进入21世纪以来电力持续短缺,煤炭资源全面紧张,天然气的价格也随着需求的扩大不断提高。与此同时,电力、天然气、煤炭资源等等资源的消耗与开发产生了极大的数据量,如果能够存储和管理好这些数据可以为能源的节约和高效利用提供一个有效的途径。能源数据在目前从数量上来说已经到了海量级。采用传统的关系数据库SQLSERVER、MYSQL、ORACLE等等虽然在目前仍然能够勉强满足存储的需求,但是需要一个超大容量的存储空间,扩展性存在瓶颈。另一方面传统的关系数据库在面对海量数据的数据查询请求时,查询效率较低越来越变得难以让人接受。 怎样解决在海量数据的背景下的存储和精确查找成为了当前的关键目标。目前来看云存储的技术对海量的能源数据进行存储和高效的管理是一种比较可行的方案。同时,高效准确地在云存储的环境下查找到需要的数据也成为了一个关键的问题,现有的查找算法虽然在一定程度上可以查找数据,但是目前仍然需要进一步的改进与性能提升。 本文首先介绍了当前的云存储环境下的查找算法的背景与国内外的发展水平,然后详细介绍了相关的技术和名词。根据能源数据的特性和 Hbase的表的特点,利用Hadoop平台,设计了一个依托Hadoop和Hbase的存储系统来存储和管理能源数据。成功实现了能源数据的分布式存储功能,然后对其模型做了进一步的改进。再在 Hbase的基础上进行了快速查找算法的研究,设计了一个多级索引表查找算法,通过MapReduce编程模型实现了算法的仿真。仿真实验的结果证明了该查找算法(*)DHT的查找效率在云存储的分布式环境下相比于传统的数据查找方法和现有的查找算法有了可观的性能提升。 基于Hadoop的能源数据存储体系及其多级索引表DHT算法的成功实现对于现有的传统方式而言具有重要的意义。Hadoop与其内含的Hbase系统能在普通的PC机上面模拟大型的云存储平台,当数量上达到一定程度后即是云存储平台,拥有十分高的可行性,这意味着该研究在将来成熟时有很高的现实意义和实际价值。