Hadoop平台下基于HBase的海量数据处理研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户：mcdonaldz

【摘要】

：

随着大数据时代的的来临,如何高效地处理海量数据已经是各行各业都要面对的一个无法回避的问题。为了避免在海量数据面前出现“信息孤岛”的窘境,开发一个部署简单、计算能力

【作者】

：

孙赵旭

【机构】

：

桂林理工大学

【出处】

：

桂林理工大学

【发表日期】

：

2014年期

【关键词】

：

海量信息处理 Hadoop平台 HBase技术 MapReduce模型系统设计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的的来临,如何高效地处理海量数据已经是各行各业都要面对的一个无法回避的问题。为了避免在海量数据面前出现“信息孤岛”的窘境,开发一个部署简单、计算能力强劲的海量信息处理系统已成为一种迫切的需求。目前应用最为广泛的开源分布式并行计算平台是Hadoop平台,HBase则是时下风头正盛的非关系型数据库,因此,致力于如何将二者有机的结合起来,并构建高效的海量信息处理系统的研究具有重要意义。　　本文对Hadoop以及HBase进行了较为深入的研究,并且在有限的资源下搭建出实现了数据预处理、数据检索和数据挖掘功能的海量数据处理原型系统。该系统利用了MapReduce模型,提高整个系统处理数据的速度。论文的主要工作成果体现在如下四个方面:　　(1)搭建Hadoop平台并实现了Yarn的部分功能。通过深入研究Mesos架构,明确了Mesos与Yarn在架构上的相似性,理清了Mesos资源调度器与Hadoop调度器的关系,掌握了Mesos与Hadoop如何交互,将二者结合在一起的同时实现相互兼容。在理论的基础上实际搭建了该Hadoop平台。　　(2)数据检索模块的设计与实现。根据HBase的存储原理及索引结构,选用基于内存框架 Spark的四叉树检索算法作为数据检索模块的核心算法,遍历HBase数据表实现具体检索过程。并根据数据类型选择是否加入Reduce过程,以提高检索效率。　　(3)数据挖掘模块的设计与实现。将经过并行化的Apriori算法进行云端迁移并作为数据挖掘模块的核心算法。将原有的Apriori算法通过MapReduce模型进行并行化处理,再将处理后的算法进行优化使,大幅度的提高了数据挖掘过程的效率。　　(4)实现了一个数据处理原型系统。数据处理原型系统从数据预处理到数据挖掘,各项功能模块既可以单独使用,也可以相互衔接配合使用,作为整体工作时各模块间契合度较高,可以高效的完成系统的数据处理任务。

其他文献

基于中间件技术的通关管理系统的设计与实现

中间件是位于操作系统和应用之间的一层软件，其实质是一种加速分布式系统开发的工具。在开发分布式系统的过程中，一系列难于处理的问题被隐藏于中间件内部。由于分布式系统一般

学位

中间件多层结构COM+基于角色的安全性Windows DNA对象管理组织

基于运动强度的自适应视频传输策略

由于视频具有数据量大、播放时延要求严格等特性,而且网络与终端设备的多样性在不断增加,因此针对视频数据进行自适应传输是必要的。近年来,自适应视频传输技术发展很快,不仅

学位

自适应传输运动强度丢帧丢包率达尔文流媒体服务器

一种用于移动自组网的方向性路由协议

无线移动自组网由于其灵活性和实用性近年来受到越来越多的关注。在无线移动自组网中,因为每个节点都需要兼具路由器的功能,所以路由是一个非常重要的研究问题,各种无线移动

学位

移动自组网AODV-DFRDFR方向转发备份路径

基于P2P的网格资源发现机制的研究

网格作为建立在互联网之上的新一代基础设施,其最终目的是将整个Internet上的计算资源、信息资源整合成一台巨大的超级计算机,实现硬件、软件、知识等所有资源的连通、共享和

学位

网格资源发现P2P分组缓存

基于HSDPA的Videophone实现的研究

近年来，随着多媒体技术和无线通讯技术的快速发展，单一语音媒体通信方式已经不能满足信息时代人们对通信的需求，人们迫切要求改善通信方式。在国内3G时代的到来之际，手机上的视频

学位

视频电话3G-324M呼叫连接视音频同步

基于JXTA的教育协作系统

随着文件共享系统的流行，如Napster，Gnutella等，P2P技术越来越引起人们的注意。P2P系统将每个单独用户贡献的资源组合成一个为所有用户所共享的资源池。系统中的每个节点既是客

学位

客户-服务器点对点JXTA协作文件共享

一种基于生物数据的多层关联规则挖掘算法

学位

基于ARM的EPA通信协议栈优化技术的研究与实现

作为我国工业自动化领域第一个拥有自主知识产权并被国际电工委员会(IEC)认可的国际标准，EPA (Ethernet for Plant Automation)已经作为第十四类型被列入现场总线国际标准IEC

学位

EPA通信协议栈嵌入式网络现场总线

虚拟存储监视系统的设计与实现

随着计算机技术的飞速发展,当前的计算机系统对于存储容量的要求逐步提高,存储系统逐步向磁盘虚拟存储的方向发展。磁盘虚拟存储技术作为一种面向磁盘的虚拟化技术,向用户屏

学位

虚拟存储监视系统GANGLIAMRTGSMART

数据网格环境下的元数据分发技术研究

伴随着Internet网络规模的飞速增长,在计算密集型和数据密集型应用领域,传统的分布式计算和并行处理技术已不能满足高性能分布式处理和分布式海量存储管理的需求,于是网格技

学位

数据网格元数据分发轮值会议

Hadoop平台下基于HBase的海量数据处理研究

其他学术论文