基于Hadoop的数据分析系统设计和实现

被引量 : 24次 | 上传用户:xbzss123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在海量数据处理中,如何高效、快速地从海量数据中挖掘出潜在价值并转化为决策依据的能力,将成为企业的核心竞争力。数据分析的重要性毋庸置疑,但随着数据的产生速度越来越快,数据量越来越大,数据处理技术遇到的挑战也越来越大。如何从海量数据中挖掘出有用的价值,分析出深层含义,进而转化为可操作的信息,已经成为各互联网企业不得不处理的问题。本文对目前海量数据处理遇到的数据收集、数据存储、数据分析和海量数据查询等问题进行分析。通过与传统的基于关系型数据库的数据分析模型和基于Hadoop的海量数据系统之间的比较,可以看出Hadoop在海量数据处理过程中,有着易扩展、成本低、吞吐量大等特点。本文分析了传统的关系型数据库在海量数据查询遇到的问题。对NoSQL数据库进行了介绍,并与传统的关系型数据库进行了比较,总结了NoSQL数据库的优缺点,并对其使用的场合进行总结。对MapReduce的性能进行了性能分析,得出了MapRecue框架中的CPU、I0和网络开销的量化分析的结果,并对MapReduce性能提出优化意见。以此为基础设计了基于Hadoop的数据分析系统,并在实际中得到测试和应用。本文主要进行了如下方而的工作:1.分析和比较NoSQL数据库和传统的关系型数据库的优缺点。2.量化分析了MapReduce框架编程中的IO、CPU和网络开销等问题,并给出优化意见。3.采用分布式数据收集系统,对海量数据进行收集,解决了日志实时收集的问题。4.采用Hadoop框架,使用HDFS解决了海量数据的存储问题,使用MapReduce编程框架解决了海量数据处理的问题。5.采用Avatar Node方式对Hadoop框架的单NameNode节点进行改进,增强Hadoop集群的稳定性。6.设计基于Hadoop的海量数据处理系统,并进行测试和在实际中得到应用。
其他文献
<正>根据2017年四川省文联对四川新文艺群体的摸底调查显示,全省的新文艺组织有八九万个,相关从业者200多万人,工商注册资金超过3000多亿元,民间画家、书法家、收藏家、舞蹈
中国古代小说的叙事学研究近年来快速发展,成为古代小说研究的一个热点。集中了我国小说创作传统、审美传统,积淀了深厚民族心理与发展线索的“梦像”书写越来越多地受到重视
论文围绕非参数正交多项式密度估计理论,以图像数据为研究对象,在总结国内外关于图像数据密度估计和分割、融合研究的基础上,提出基于图像数据的非参数正交多项式密度模型及
针对隧道衬砌结构特点,根据温度场分布规律,对隧道衬砌结构在火灾情况下的变形和承载力进行数值模拟计算,分析隧道衬砌结构应力应变变化规律。结果表明:当衬砌温度升高后,隧道
婚姻家庭变革是社会变革的重要内容。清末民初的婚姻家庭变革是伴随着改良运动和政治革命而发生发展的。它是社会变革的重要内容,也是女权运动的重要组成部分和人性觉醒的重要
<正> 在介绍最近对高血压症的三种疗法时,首先要提到的是‘X射线疗法’,它是建立在高血压症的新的病原学说上的一种疗法。其次是‘硫酸镁溶液的肌肉注射疗法’,系作用於血管
通过EDTA-2Na对壳聚糖进行酰化改性制备EDTA-壳聚糖,采用单因素试验结合正交试验确定EDTA-壳聚糖的最佳制备条件,并将其与壳聚糖盐酸盐、壳聚糖季铵盐、羟丙基壳聚糖、壳聚糖
随着我国科技的高速发展,计算机技术在人们的日常生活中得到了非常广泛的应用,因此人们更应该注意到计算机的网络安全问题。计算机网络安全的主要隐患包括黑客的入侵、计算机
基于一种面向控制的质子交换膜燃料电池的模型,本文中设计并实现了一种新型的燃料电池模拟器软件,利用Mat-lab/Simulink工具箱以及Matlab的界面编程能力,将燃料电池系统模块