基于MapReduce的海量点击流信息挖掘研究

被引量 : 0次 | 上传用户:sniperxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与电子商务的快速发展,网站产生的点击、商品、交易等数据呈现海量数据式增长。淘宝网(taobao.com)中的页面每天点击超过2亿次以上,商品成交超过5000万次/天。巨大的访问量带来了巨大的浏览记录与交易记录,挖掘这些记录中蕴含的用户信息成为时下网站建设者们最迫切的需求。点击流是用户在一个Session会话内点击URL链接而被记录的访问路径,挖掘点击流数据可以发现商品频繁点击序列,并尝试从点击流的角度优化个性化商品推荐算法。MapReduce计算模式是目前主流较为稳定的分布式计算平台,本文充分利用MapReduce在矩阵运算与聚合运算上的优势,改进传统挖掘算法在分布式环境下的数据共享、中间知识集吸收等问题,从而解决海量数据挖掘瓶颈,获得挖掘效率的提升。本文的主要工作和创新点如下:首先,本文使用HDFS构建的数据仓库+MapReduce实现开源分布式数据挖掘框架,采用自定义文本方式存储海量点击数据,使用MapReduce计算模式实现数据集的投影、选择、并、交、叉、连接等数据集操作,进而实现在HDFS中进行数据的清洗与预处理操作。其次,本文提出在MapReduce数据操作基础上使用点击树来还原一个完整Session会话内的用户点击路径,真正反映用户最原始的点击动机。在这基础之上优化原始BIDE频繁序列模式挖掘算法,消除前缀树生长过程中的递归方式,使挖掘任务在2个MapReduce任务内就能完成。最后,本文尝试从点击流数据、用户长期偏好数据多维度优化个性化推荐算法,给出一个基于点击流的ItemCF综合推荐算法应用。算法基于用户点击模式与用户长期偏好特征,引入时间因子到项相似度计算中。最终利用逻辑回归模型综合模式融合多种维度特征,给出商品Top-N推荐值排名,实验结果表明综合推荐算法效果有显著提升。
其他文献
GDP真是令人纠结的发明,在经济运行体系健康的年份,它是做大财富蛋糕的天使;而在体系失衡的年份,对它的过分追求又会加剧本已失衡的经济生态,这个时候它又像是魔鬼。不过,在未找到
报纸
目的研究冠心病介入治疗术后常见护理问题及对策。方法选取我院收治的1800例介入治疗的冠心病患者作为研究对象,并随机分成两组,对其实施不同的护理措施。一组实施常规护理干
水泵的选型是动力机、传动及辅助设备等的配套、泵站工程建筑物的设计以及泵站经济运行的依据,水泵选型不合理不仅会增加工程投资,而且会降低水泵的运行效率,增加泵站能耗和
目的比较伊立替康联合奈达铂与多西他赛联合奈达铂治疗中晚期宫颈癌的临床效果。方法中晚期宫颈癌患者102例,采用伊立替康+奈达铂化疗者48例为观察组,采用多西他赛+奈达铂化
应收账款对一个企业的意义不言而喻,对一个中小企业来说,更是性命攸关。本文通过我国中小企业的现状来探讨一下现在中小企业应收账款的内外管理中存在的问题,存在这些问题的
自Martin的Beyond Exchange:Appraisal Systems in English发表以来,评价理论在国内外受到众多关注,也得到了不断的发展和完善。该理论是系统功能语言学对人际意义研究的一个
池田大作作为创价学会(日本最大佛教组织)的一名实际领导者,他的思想对日本乃至全世界都具有重要的社会影响,然而,人们对他的思想研究,尤其是环境伦理思想的研究却是很少,甚
近年来,中国移动互联网、大数据、云计算等产业不断向纵深发展,“互联网+”战略深入推进,经济社会与互联网耦合程度快速提高,产生巨大的通信需求,传送网作为底层承载网络,面临巨大考验。未来几年,5G、物联网等新技术应用势必对传送网提出新的挑战要求。传送网作为底层信息承载基础设施,其网络质量直接影响上层通信业务。作者在研究生期间参与了中国移动设计院省际骨干传送网络规划设计系统(Transport Plan
<正> 1920年Sigrist作氨水烧伤兔眼试验,发现前房穿刺有一定治疗作用,此后一直为临床所使用。1950年Grant复制这个实验,认为它对治疗没有很大益处。近来对前房穿刺评议较多,
在复杂严峻的国内外经济环境中,今年以来,中央企业生产经营持续稳中向好,前7个月累计实现营业收入16万亿元,同比增长10.6%;实现利润总额10495.5亿元,增长23.9%。$$一系列亮眼成绩的
报纸