基于Hadoop的数据挖掘算法研究与实现

来源 :北京邮电大学 | 被引量 : 26次 | 上传用户:danan1414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动智能操作系统技术的突破,智能手机的普及,移动互联网时代的到来,web app每天都在产生TB甚至PB级的web日志,如何从这些海量日志信息中提取用户的个人爱好及其他信息,为用户提供个性化推荐服务,为人们的生活带来便利,成为各大互联网公司和科研机构研究人员的研究热点。由于开源云计算平台Hadoop的出现,解决海量web日志信息的数据挖掘成为可能。本文的研究内容主要包含以下几个方面:一、对Hadoop云计算平台进行研究。Hadoop是Apache下的顶级开源项目,该平台能够利用成千上万的廉价计算机提供并行计算与存储服务。本文主要深入研究了Hadoop平台下的HDFS分布式文件系统,并行编程模型MapReduce,分布式列型存储数据库HBase。二、对聚类分析进行研究。聚类分析是数据挖掘中应用极为广泛的一类,本文主要研究了聚类分析的起源、定义和样本相似距离,并详细介绍了聚类分析的常用方法。三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。四、研究分析了K-Means和PAM聚类算法,并基于PAM改进了K-Means算法,克服了K-Means算法本身的缺点,并在Hadoop平台上实现了改进K-Means算法的并行化,且从三个层面对算法进行了优化。五、对基于Hadoop的聚类算法进行实验验证,从有效性、优化率和加速比三个方面验证了本文中改进和优化的算法的正确。
其他文献
目的分析天津市武清区2016年重点职业病监测结果,为职业病防治和健康风险评估提供依据。方法通过对多部门多途径收集、整理重点职业病相关信息,按照统一要求录入资料,运用SPS
研究了β晶型成核剂及其用量对聚丙烯管材力学性能的影响,并对其进行了正交偏光显微镜观察以及DSC分析。研究表明:加入β成核剂后,聚丙烯晶型由α转变为β,韧性大大增强,且用量在0.1%时达到最大值。
通过对比实验研究了两种新型氮磷体系膨胀型阻燃剂(PN-201、ANTI-6)对聚丙烯(PP)阻燃性能及力学性能的影响。结果表明:在PP中添加PN-201型阻燃剂23%有明显的成炭作用,可以获得良好的
近年来,大学生就业问题成为社会关注的热点问题,随着就业人数持续增加,毕业生们面临就业的压力将越来越大。十八大中胡锦涛总书记在提出改善民生问题时特别强调了解决就业问
韩国世宗学堂是隶属于韩国政府的韩国语言文化的国家教育品牌,对愿意学习韩国语的人展开实用的韩国语教学。从2007年于蒙古乌兰巴托建立起第一所世宗学堂起,11年的时间,截止2
<正>教学目标:1、基础知识:通过学习,学生了解世界主要气候类型及其分布和每种气候类型的气候特点。2、基本技能和能力培养:初步学会阅读世界气候类型分布图,通过气温曲线和
会议
我们都曾受过“别人家的”压制过,现在是,今后也是。所谓生命不止.“别人家的”不息。
<正> 我国将分阶段、分层次地发展自己的工业技术。我们是个大国,不可能统统都采用先进技术。沿海城市可以采用先进技术发展新型工业,但是也要用先进技术改革传统工业。工业技术发展了,大量的农业人口从农业分离出来,他们不是转向大城市,而是向小集镇集中,转向乡镇工业。目前乡镇工业
近年来,由于土壤重金属污染问题日益突出,有关污染土壤的植物萃取修复技术的基础理论和实际应用正成为研究热点。本文通过植物萃取的盆栽试验、离子树脂交换法、偏剔除试验以及