基于Hadoop的数据库中高效数据存取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ysw135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量的爆炸式增长,传统的关系型数据库管理系统已经无法应对大数据时代数据处理的要求,人们迫切的需要一种能够对海量数据进行存储和运算的工具,Hadoop在这种环境下应运而生。作为一个分布式系统,Hadoop能够很好的利用集群来实现对海量数据的存储和运算。目前Hadoop凭借其高可靠性、高扩展性和高容错性等优点已然成为了大数据处理的行业标准。Hadoop设计之初是用来处理大规模聚集任务的,这种任务往往需要处理全部的数据,所以使用Hadoop对数据进行处理时,会扫描全部的数据。但是随着时间的发展,人们使用Hadoop执行的任务种类越来越多,许多任务不需要处理全部的数据,比如选择查询任务,在这种情况下Hadoop依然采用原来的数据处理方式,这就造成了Hadoop的数据存取效率低下的问题。面对这个问题,本文借鉴传统关系型数据库的经验,为Hadoop引入索引机制从而改变Hadoop扫描数据的处理方式,进而提高Hadoop的数据存取效率。本文首先分析了Hadoop的关键组成部分HDFS和Map Reduce,然后基于这部分的分析提出了两种索引方案:基于数据块的全局索引和集群上的分布式索引。基于数据块的全局索引方案首先介绍了分布式有序表的概念,然后从索引的格式、索引文件的存储、索引的创建和索引的使用四个方面论述了全局索引的实现。集群上的分布式索引方案首先分析了分布式索引的组织形式并对全局索引和局部索引进行了对比,然后详细阐述了在HDFS集群上分布式索引的实现过程,最后分析了该方案下系统的容错性。然后通过大量的对比实验,验证了本文提出的两种索引方案的有效性,对比分析了两者在执行选择查询任务时的效果。本文的实验结果验证了使用索引提高Hadoop数据存取效率的可行性。最后对本文的研究内容进行了总结,分析了当前研究的不足之处并为后续研究提出了一些思路。
其他文献
RFID技术是一种非接触的自动识别技术,操作方便、快捷,阅读器可以在一定范围内任意方向读取一个标签或多个标签,其优势是交易速率快,但由于安全性不高,在实际应用场景中受到
随着通信和无线接入技术的快速发展,能够为移动的主机提供网络的服务成为一种需要。移动IP协议是通信终端在移动中保证通信连接性的协议,通过该协议可以使终端在移动时仍然保
Blog是一种基于RSS技术的信息交互平台,它是一种作者与读者以日志风格进行交互的中介。与传统的网络信息相比,Blog领域链接关系更加丰富,Blog作者间交互更加频繁,Blog为用户在互
在家庭环境中应用多元化的无线传感器产品,已经成为当前无线传感器网络(WSN)技术和智能家居结合发展的一种趋势。而家庭无线传感器网络(HWSN)技术的广泛应用将衍生出大量的家
随着网络和多媒体技术的发展,数字作品的版权保护和真实性认证成为人们的迫切需求。本文研究基于水印的数字图像版权保护和内容认证相关算法及应用,力求面向应用实际需要,在理论
随着Web服务的发展,组合Web服务应用领域越来越广泛。然而,组合Web服务本身可能由来自不同地区不同级别的服务组成,远程原子服务的不确定性以及不稳定的网络环境等因素难以保
和传统的鼠标、键盘等人机交互设备相比,手势是更自然、更便利的交互方式。基于手势的实时人机交互在虚拟现实领域有着重要的理论和应用价值,它可以用来实现三维鼠标以及用于
近几年来,以欺诈、篡改、盗窃电子数据为表现形式的高科技犯罪手段与日俱增,计算机取证技术已经逐渐成为当前的研究热点。但是目前计算机取证技术研究,主要集中在电子数据的
快速发展的因特网为人们提供了丰富的信息资源。虽然人们可以在因特网上通过搜索引擎找到他们所需要的信息,但是在获得信息的同时,也附带来了大量的无用信息,需要他们进一步
本文对教师资格证书网上申报系统进行了研究。师范类毕业生申报教师资格证书是学院(河源职业技术学院)每年必须做的毕业工作,该项工作的任务量大、时间紧、数据要确保准确无误