基于Hadoop的数据库中高效数据存取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：ysw135

【摘要】

：

随着数据量的爆炸式增长,传统的关系型数据库管理系统已经无法应对大数据时代数据处理的要求,人们迫切的需要一种能够对海量数据进行存储和运算的工具,Hadoop在这种环境下应

【作者】

：

王彦争

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2016年期

【关键词】

：

海量数据 Hadoop 索引数据存取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据量的爆炸式增长,传统的关系型数据库管理系统已经无法应对大数据时代数据处理的要求,人们迫切的需要一种能够对海量数据进行存储和运算的工具,Hadoop在这种环境下应运而生。作为一个分布式系统,Hadoop能够很好的利用集群来实现对海量数据的存储和运算。目前Hadoop凭借其高可靠性、高扩展性和高容错性等优点已然成为了大数据处理的行业标准。Hadoop设计之初是用来处理大规模聚集任务的,这种任务往往需要处理全部的数据,所以使用Hadoop对数据进行处理时,会扫描全部的数据。但是随着时间的发展,人们使用Hadoop执行的任务种类越来越多,许多任务不需要处理全部的数据,比如选择查询任务,在这种情况下Hadoop依然采用原来的数据处理方式,这就造成了Hadoop的数据存取效率低下的问题。面对这个问题,本文借鉴传统关系型数据库的经验,为Hadoop引入索引机制从而改变Hadoop扫描数据的处理方式,进而提高Hadoop的数据存取效率。本文首先分析了Hadoop的关键组成部分HDFS和Map Reduce,然后基于这部分的分析提出了两种索引方案:基于数据块的全局索引和集群上的分布式索引。基于数据块的全局索引方案首先介绍了分布式有序表的概念,然后从索引的格式、索引文件的存储、索引的创建和索引的使用四个方面论述了全局索引的实现。集群上的分布式索引方案首先分析了分布式索引的组织形式并对全局索引和局部索引进行了对比,然后详细阐述了在HDFS集群上分布式索引的实现过程,最后分析了该方案下系统的容错性。然后通过大量的对比实验,验证了本文提出的两种索引方案的有效性,对比分析了两者在执行选择查询任务时的效果。本文的实验结果验证了使用索引提高Hadoop数据存取效率的可行性。最后对本文的研究内容进行了总结,分析了当前研究的不足之处并为后续研究提出了一些思路。

其他文献

面向主动式RFID系统的SHA1中量级加密技术研究

RFID技术是一种非接触的自动识别技术,操作方便、快捷,阅读器可以在一定范围内任意方向读取一个标签或多个标签,其优势是交易速率快,但由于安全性不高,在实际应用场景中受到

学位

自动识别技术硬件平台软件平台加密算法存储空间

基于NS2的移动IP扩展技术的研究

随着通信和无线接入技术的快速发展,能够为移动的主机提供网络的服务成为一种需要。移动IP协议是通信终端在移动中保证通信连接性的协议,通过该协议可以使终端在移动时仍然保

学位

NS2移动IPIPv6移动预测

基于斥力张力模型的博客社区发现及可视化

Blog是一种基于RSS技术的信息交互平台，它是一种作者与读者以日志风格进行交互的中介。与传统的网络信息相比，Blog领域链接关系更加丰富，Blog作者间交互更加频繁，Blog为用户在互

学位

斥力张力模型博客社区RSS技术日志风格

家庭传感器网络隐私控制策略研究与实现

在家庭环境中应用多元化的无线传感器产品,已经成为当前无线传感器网络(WSN)技术和智能家居结合发展的一种趋势。而家庭无线传感器网络(HWSN)技术的广泛应用将衍生出大量的家

学位

无线传感器网络家庭传感器系统安全隐私

基于水印图像版权保护和内容认证算法及应用研究

随着网络和多媒体技术的发展，数字作品的版权保护和真实性认证成为人们的迫切需求。本文研究基于水印的数字图像版权保护和内容认证相关算法及应用，力求面向应用实际需要，在理论

学位

数字水印版权保护内容认证水印协议织物水印安全性

基于OWL-S的组合Web服务QoS仿真分析工具的研究与设计

随着Web服务的发展,组合Web服务应用领域越来越广泛。然而,组合Web服务本身可能由来自不同地区不同级别的服务组成,远程原子服务的不确定性以及不稳定的网络环境等因素难以保

学位

组合Web服务OWL-S容错策略Web服务QoS仿真QoS

基于视觉的三维指尖检测算法和应用

和传统的鼠标、键盘等人机交互设备相比,手势是更自然、更便利的交互方式。基于手势的实时人机交互在虚拟现实领域有着重要的理论和应用价值,它可以用来实现三维鼠标以及用于

学位

双目视觉指尖检测Kalman滤波3D重建

基于主机的行为分析取证技术研究

近几年来,以欺诈、篡改、盗窃电子数据为表现形式的高科技犯罪手段与日俱增,计算机取证技术已经逐渐成为当前的研究热点。但是目前计算机取证技术研究,主要集中在电子数据的

学位

计算机取证行为分析取证框架遗留痕迹

中文问题分类和句型分析的研究

快速发展的因特网为人们提供了丰富的信息资源。虽然人们可以在因特网上通过搜索引擎找到他们所需要的信息,但是在获得信息的同时,也附带来了大量的无用信息,需要他们进一步

学位

中文问答系统问题分类句型分析粗糙集理论支持向量机

教师资格证书网上申报系统

本文对教师资格证书网上申报系统进行了研究。师范类毕业生申报教师资格证书是学院(河源职业技术学院)每年必须做的毕业工作，该项工作的任务量大、时间紧、数据要确保准确无误

学位

高等院校人事管理教师评定办公自动化

基于Hadoop的数据库中高效数据存取技术研究

其他学术论文