基于Hadoop的大数据平台设计与实现及在推荐系统中的应用

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:kindmercy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动通信的发展,尤其是3G/4G移动通信网络的迅速扩张以及云计算技术的快速发展,各种互联网技术不仅仅局限于PC端,智能设备终端以及各种云服务的迅速膨胀。随之而来就是数据的井喷式大爆炸,在大数据时代,我们必须想方设法存储和分析这些数据。但是目前对于任何单独的硬件都无法存储和分析这些超大数据,因此,基于该问题以分布式系统为基础,本论文旨在构建一个能够采集、预处理、存储、分析计算的并且可以进行资源监控分析运行状态的大数据平台,并基于此平台做一些推荐应用的简单研究测试。本论文针对超大规模数据的存储、分析、应用以及可监控统计分析工作流的平台需求,提出一种基于Hadoop生态系统及其组件的集群平台构建模型。该模型是针对超大数据量的存储分析而提出的,由数据采集预处理系统、数据存储系统、数据计算分析系统以及平台资源统计分析系统构成。数据采集预处理系统是由基于分布式消息系统的Kafka集群搭建而成,该系统既可以将数据发往基于Hadoop的离线处理系统又可以发往基于Spark的准实时处理系统。数据存储系统由基于Hadoop的HDFS分布式文件系统和HBase分布式数据库组成。数据计算分析系统是由MapReduce和以MapReduce为底层计算模型的Hive组成。平台资源统计分析系统则对Hadoop大数据平台集群的计算资源和存储资源的统计分析进行展示,即可以实时监控集群运行状态,也可以根据系统的分析模块得出最近几天或者当天的平台集群的运行状况,指导用户使用集群各种服务、调试和排查作业问题以及优化作业执行过程。最后,结合Mahout库对数据平台在推荐系统上的应用进行了研究测试。
其他文献
在我国,商业银行是国家金融行业的四大支柱之一,占据了非常重要的地位,它对整个金融业乃至对整个经济社会的发展都起到了举足轻重的作用。近些年,随着国内外经济环境的变化,
<正>2016年10月24日至30日,在楚天都市报社主办的"万里长江人文行走"主题采访活动中,有一支青春靓丽的新闻生力军——《湖北日报》大学生记者团。活动期间,大学生记者与作家
语文是大学教学体系中的重要组成部分,通过大学语文教学,可以让学生在吸收语言和文学知识的过程中,接受良好的精神文化教育,培养学生的文学素养。然而,由于大学语文的教学模
本文介绍一种在应用程序窗口画面中实现动画显示的制作方法 ,并给出实现程序动画显示的编程步骤
<正> 总工会筹备的经过 京汉铁路大罢工是中国第一个罢工高潮的最后一个怒涛。这个罢工显然是为中国职工运动开了一个新的阶段——从改良生活的经济斗争转变到争取自由的政治
本文介绍了一个机库屋盖,采用了三边支承、一边自由的网架结构,网架形式为斜放四角锥。在开口一边采用了反梁加强,即在大门开口处两个柱距内再在网架上叠加一层倒放的斜放四
指出当前某些地方研究生答辩存在的问题,强调研究生论文答辩是研究生培养的一个重要环节,提出搞好研究生论文答辩的看法。
为帮助用户正确选择立体停车设备,提高性价比,实现投资目的,并在现实工作中充分发挥立体停车设备性能,本文对立体停车设备进行分析,剖析了立体停车设备的优缺点,并对目前使用
一直以来我国的纤维艺术都是沿袭着传统染织艺术的历史,以平面的编织、壁挂为主。直到20世纪80年代"软雕塑"艺术形态的介入,为我国纤维艺术重新焕发了生机,也开创了我国纤维