Hadoop平台下基于HBase的海量数据处理研究

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:mcdonaldz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的的来临,如何高效地处理海量数据已经是各行各业都要面对的一个无法回避的问题。为了避免在海量数据面前出现“信息孤岛”的窘境,开发一个部署简单、计算能力强劲的海量信息处理系统已成为一种迫切的需求。目前应用最为广泛的开源分布式并行计算平台是Hadoop平台,HBase则是时下风头正盛的非关系型数据库,因此,致力于如何将二者有机的结合起来,并构建高效的海量信息处理系统的研究具有重要意义。  本文对Hadoop以及HBase进行了较为深入的研究,并且在有限的资源下搭建出实现了数据预处理、数据检索和数据挖掘功能的海量数据处理原型系统。该系统利用了MapReduce模型,提高整个系统处理数据的速度。论文的主要工作成果体现在如下四个方面:  (1)搭建Hadoop平台并实现了Yarn的部分功能。通过深入研究Mesos架构,明确了Mesos与Yarn在架构上的相似性,理清了Mesos资源调度器与Hadoop调度器的关系,掌握了Mesos与Hadoop如何交互,将二者结合在一起的同时实现相互兼容。在理论的基础上实际搭建了该Hadoop平台。  (2)数据检索模块的设计与实现。根据HBase的存储原理及索引结构,选用基于内存框架 Spark的四叉树检索算法作为数据检索模块的核心算法,遍历HBase数据表实现具体检索过程。并根据数据类型选择是否加入Reduce过程,以提高检索效率。  (3)数据挖掘模块的设计与实现。将经过并行化的Apriori算法进行云端迁移并作为数据挖掘模块的核心算法。将原有的Apriori算法通过MapReduce模型进行并行化处理,再将处理后的算法进行优化使,大幅度的提高了数据挖掘过程的效率。  (4)实现了一个数据处理原型系统。数据处理原型系统从数据预处理到数据挖掘,各项功能模块既可以单独使用,也可以相互衔接配合使用,作为整体工作时各模块间契合度较高,可以高效的完成系统的数据处理任务。
其他文献
中间件是位于操作系统和应用之间的一层软件,其实质是一种加速分布式系统开发的工具。在开发分布式系统的过程中,一系列难于处理的问题被隐藏于中间件内部。由于分布式系统一般
由于视频具有数据量大、播放时延要求严格等特性,而且网络与终端设备的多样性在不断增加,因此针对视频数据进行自适应传输是必要的。近年来,自适应视频传输技术发展很快,不仅
无线移动自组网由于其灵活性和实用性近年来受到越来越多的关注。在无线移动自组网中,因为每个节点都需要兼具路由器的功能,所以路由是一个非常重要的研究问题,各种无线移动
网格作为建立在互联网之上的新一代基础设施,其最终目的是将整个Internet上的计算资源、信息资源整合成一台巨大的超级计算机,实现硬件、软件、知识等所有资源的连通、共享和
近年来,随着多媒体技术和无线通讯技术的快速发展,单一语音媒体通信方式已经不能满足信息时代人们对通信的需求,人们迫切要求改善通信方式。在国内3G时代的到来之际,手机上的视频
随着文件共享系统的流行,如Napster,Gnutella等,P2P技术越来越引起人们的注意。P2P系统将每个单独用户贡献的资源组合成一个为所有用户所共享的资源池。系统中的每个节点既是客
学位
作为我国工业自动化领域第一个拥有自主知识产权并被国际电工委员会(IEC)认可的国际标准,EPA (Ethernet for Plant Automation)已经作为第十四类型被列入现场总线国际标准IEC
随着计算机技术的飞速发展,当前的计算机系统对于存储容量的要求逐步提高,存储系统逐步向磁盘虚拟存储的方向发展。磁盘虚拟存储技术作为一种面向磁盘的虚拟化技术,向用户屏
伴随着Internet网络规模的飞速增长,在计算密集型和数据密集型应用领域,传统的分布式计算和并行处理技术已不能满足高性能分布式处理和分布式海量存储管理的需求,于是网格技