论文部分内容阅读
随着大数据时代的的来临,如何高效地处理海量数据已经是各行各业都要面对的一个无法回避的问题。为了避免在海量数据面前出现“信息孤岛”的窘境,开发一个部署简单、计算能力强劲的海量信息处理系统已成为一种迫切的需求。目前应用最为广泛的开源分布式并行计算平台是Hadoop平台,HBase则是时下风头正盛的非关系型数据库,因此,致力于如何将二者有机的结合起来,并构建高效的海量信息处理系统的研究具有重要意义。 本文对Hadoop以及HBase进行了较为深入的研究,并且在有限的资源下搭建出实现了数据预处理、数据检索和数据挖掘功能的海量数据处理原型系统。该系统利用了MapReduce模型,提高整个系统处理数据的速度。论文的主要工作成果体现在如下四个方面: (1)搭建Hadoop平台并实现了Yarn的部分功能。通过深入研究Mesos架构,明确了Mesos与Yarn在架构上的相似性,理清了Mesos资源调度器与Hadoop调度器的关系,掌握了Mesos与Hadoop如何交互,将二者结合在一起的同时实现相互兼容。在理论的基础上实际搭建了该Hadoop平台。 (2)数据检索模块的设计与实现。根据HBase的存储原理及索引结构,选用基于内存框架 Spark的四叉树检索算法作为数据检索模块的核心算法,遍历HBase数据表实现具体检索过程。并根据数据类型选择是否加入Reduce过程,以提高检索效率。 (3)数据挖掘模块的设计与实现。将经过并行化的Apriori算法进行云端迁移并作为数据挖掘模块的核心算法。将原有的Apriori算法通过MapReduce模型进行并行化处理,再将处理后的算法进行优化使,大幅度的提高了数据挖掘过程的效率。 (4)实现了一个数据处理原型系统。数据处理原型系统从数据预处理到数据挖掘,各项功能模块既可以单独使用,也可以相互衔接配合使用,作为整体工作时各模块间契合度较高,可以高效的完成系统的数据处理任务。