基于Hadoop的Web日志分析系统的研究与实现

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:ahjon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的快速发展,给人们的生活带来了翻天覆地的变化,人们在互联网浪潮中享受服务的同时,也在不断的向网络传播信息,由用户上网产生的日志数据日益膨胀,这些数据蕴含着巨大的潜在价值,如何从海量日志数据中快速挖掘出有价值的信息,对人类社会的进步与发展具有重要的意义。日志数据具有数据量极大、分布范围极广、价值密度极低等特点,对日志数据的处理与挖掘并不是一件容易的事。目前大多数传统企业日志分析系统还是单机的,已经无法满足对海量日志数据的存储和计算需求,如何提高挖掘效率,降低挖掘成本也是亟待解决的一个问题。针对上述问题,本文提出并设计一种基于Hadoop的Web日志分析系统。主要研究内容如下:1.论文介绍了课题产生的背景与意义,阐述了当前的分布式及日志挖掘现状。深入研究了 Hadoop技术包括HDFS文件系统和Map Reduce并行计算框架。对Sqoop数据迁移工具以及Hive数据仓库进行了分析。2.研究了 Web日志挖掘理论及聚类算法。针对传统K-means算法进行了分析,提出一种改进的并行K-means算法,并将改进后的算法应用于分布式Web日志系统以完成日志的聚类分析。3.使用Hadoop平台对Web日志数据预处理。包括数据清洗、用户识别、会话识别、路径补充,并给出预处理函数的Map设计和Reduce设计。4.重点介绍了日志分析系统的设计与实现。功能模块包括日志存储、日志预处理、关键指标统计、数据展示、日志挖掘。其中日志预处理模块较为重要,在第三章已单独实现。日志存储采用HDFS和MySQL相结合的方式,原始数据和清洗后的数据存储在HDFS。指标统计采用Hive Sql,统计结果使用Sqoop导入到MySQL存储方便可视化展示。日志挖掘采用改进的并行K-means算法对注册用户聚类分析。5.搭建系统并对实验结果分析。实验表明,基于Hadoop的Web日志分析系统实现了系统的功能,完成了指标统计以及可视化展示;改进的并行K-means算法能够对注册用户聚类分析,提高了聚类的效率,借助分布式系统可以应对大规模日志数据的挖掘与分析。
其他文献
随着我国市场经济的不断发展,投资公司在社会经济中发挥的作用越来越大,但是较高的财务风险是投资公司所面临的共同问题。财务风险导致投资行业的发展受限,影响了金融行业的整体水平,因此,分析现阶段投资公司面临的各种财务风险,并探讨风险形成的原因及防范对策,具有十分重要的现实意义。基于此种背景,本文以S投资公司为例,对其财务风险问题进行了深入的研究。本文首先对国内外学者的相关研究进行了梳理与评价,在文献研究
在数字化新媒体技术快速发展的今天,科学、技术开始走进日常生活,并对生活方式产生深远影响,此后国内正式兴起一场数字化、信息化、现代化科学浪潮。本文的主要研究内容如下:
用X射线光电子能谱法(XPS)研究了六种有机锗化合物的Ge3d轨道结合能化学位移与锗所处不同化学环境的关系。结果表明,对Ge3d轨道电子能化学位移有明显影响的关键取决于极性基团。
学风建设是学校办学质量和管理水平的综合体现,因地制宜,守正创新,不断加强学风建设,推动学校整体办学实力的提升已经成为一种公识。本文结合教育管理实践,对加强学风建设的
根据承包田块空间特征的规范性和作物种植以承包田块为单元的特点,提出了以承包田块制图为基础的混种区作物面积遥感监测方法。该方法将遥感监测分类结果按承包田块进行区域统计,转化成承包田块的属性;通过设定合理的阈值,确定各个承包田块的种植类型,生成种植类型图,从而对种植各类作物的承包田块面积进行统计。
大学生是国家重要的储备性人才,随着现代市场经济不断发展、完善,各行业就业竞争愈发激烈,促进大学生自主创新创业逐渐成为当代高校的核心工作之一。共青团在鼓励大学生自主
皇家园林是重要的历史遗产资源,代表着古代中国园林的最高造诣,必须要加以保护及开发。然而社会经济发展对皇家园林的保护造成了一定的威胁,如何加强对皇家园林的保护和利用
2012年5月22日,由北京师范大学教育学部与《中国教育报》联合主办的“减轻中小学过重学习负担研讨会”在北京举行。教育学部部长石中英、《中国教育报》总编辑翟博,以及来自教
在2块土壤肥力不同的水稻田分别进行施用金正大缓释肥和木质素水稻缓释肥对水稻产量及经济性状的影响的试验。结果表明,施用木质素水稻缓释肥显著提高了水稻的平均株高、穗长
在教学过程中普遍存在着一个现象,即大部分同学学习态度良好,也肯练,但却不爱动脑,也不善于动脑。回答问题思路不清晰,缺乏应有的逻辑性。针对这样的问题,应在课上有侧重地督