基于Hadoop的日志统计分析系统的设计与实现

被引量 : 0次 | 上传用户:a479676614
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络数据呈现指数级的增长,IDC数据表明,全球企业数据正以55%的速度逐年增长,大数据中蕴含着巨大的商业价值,引起了企业的广泛关注,然而,大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难,现有的工具逐渐无法有效的处理这些问题。Google首先推出了MapReduce用来应对其对大数据处理的需求。Hadoop是开源版本的MapReduce,并逐渐成为许多互联网公司基础计算平台的一个核心部分。本文旨在实现基于Hadoop的日志统计分析系统。本文在对此系统进行需求分析的基础上,设计了以Hadoop、HBase集群为基础,数据源层、存储层、计算层相互融合的体系结构,设计并实现了日志同步、统计分析作业定制、任务调度、数据查询四大功能。日志同步提供数据从不同数据源到Hadoop集群的数据收集、聚合和移动,以便数据的分布式存储;统计分析作业的定制支持MapReduce、Streaming、Hive三种不同类型的作业,满足对统计分析多样性的需求;任务调度对所有用户提交的作业进行统一管理和调度。数据查询对存储在集群中的数据提供多种查询方式。本文综合使用了Hadoop生态圈的各种开源技术,包括Flume NG、Sqoop、HDFS、MapReduce、Hive、HBase,从日志数据的收集同步,到日志的存储和计算分析,到最终分析结果的查询,涵盖了使用Hadoop进行日志统计分析的典型流程和技术。本文使用开发语言Java和shell,开发工具为Eclipse IDE,VIM,Hadoopeclipse-plugin。在多台CentOS机器之上搭建Hadoop集群,进行分布式存储和计算。用户通过统计分析系统进行日志同步、统计分析任务提交和调度、结果查询等操作。
其他文献
本文针对传统汽油机燃油经济性差,泵气损失大等问题,开发了一款基于全可变气门机构的多缸原理样机。旨在通过降低泵气损失、降低气门机构机械能损失及缩短燃烧持续期等方法来改
提出了一种基于GSM/CDMA-1Xmodem技术的SMS、WAP、IVR增值业务拔测及质量监控解决方案,适用于运营商对SP业务的上线测试以及日常运营质量的监管。
南宋时地方士人直接参与地方官学修建活动,并以资金直接参与和非资金参与两种方式发挥自己的作用。南宋时期士人群体的壮大及"以天下为己任"意识的增强,促使士人参与官学修建,
在辽阔壮美的中国西部国土上,关中盆地雄踞河、渭的上游,背靠黄土高原和内蒙古高原,通过北丝绸之路与世界相连;又面向坦荡如砥的黄河中下游平原,有函谷关、三门峡之险,居高临
工程质量检测是工程质量控制的必要的有效手段,检测机构是工程建设中的组成部分之一。随着水利事业改革的不断深化,水利工程质量检测从业市场正在发生新的变化。通过分析水利
在众多地基处理技术中,桩和土工合成材料作为经济便捷的地基处理方法,常用于软土地基中,提高软土地基的承载力。桩承式加筋路堤是一种将桩与土工合成材料联合作为路堤支承体系的
<正> 老客户比市场占有率还重要行销大事,无过于留住回头客(老客户)。一次,我问营销经理:&#39;公司卖得不错吧!&#39;他回答:&#39;很好,市场占有率已超过20%。&#39;我又问:&#3
企业信息化是衡量一个现代企业竞争力的核心要素,随着信息系统的发展,现代型企业的信息发展到达了一个前所未有的时代,信息系统支撑企业战略,创新商业模式。随着国家新医改政策的
硅溶胶是SiO_2水溶胶和硅酸水溶胶的简称,是水化SiO_2微粒分散在水中的胶体溶液,通常硅溶胶分碱性和酸性两类,这两类中还可按实际应用和要求分为若干品种,高浓度硅溶胶是指S
目前国内最常用的墙体保温材料是聚苯板等有机材料,但是其易燃的致命弱点带来了巨大的安全隐患,因此限制其应用。脲醛树脂泡沫材料,是从国外引进的新型保温材料,因其兼具难燃、价