基于Mahout的推荐系统实践及算法改进

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:rj1340
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会已经进入了信息大爆炸的时代,面对着大量的信息数据,无论是信息的生产者还是信息的消费者都受到了极大挑战。一方面,信息生产者希望将自己生产的信息推送给可能对其感兴趣的用户面前;另一方面,信息消费者又希望能够从浩如烟海的信息中找出自己真正感兴趣的东西。在这种情形下,推荐系统应运而生,它通过分析用户的历史行为信息,为用户的兴趣爱好建模,从而能够预测用户潜在的可能感兴趣的物品,完成个性化推荐。在个性化推荐系统领域,大家最为关注的就是如何使推荐系统的性能达到最优.其中推荐算法的好坏起着至关重要的作用,因此关于推荐算法的研究就成为大家关注的焦点。本文主要从以下几个方面论述。首先,为了对推荐系统的理解更加具体、深刻,介绍了推荐系统的概念、构成模块、评价准则、评测方法还有典型应用场景。系统的分析了几种典型的推荐算法,包括基于用户的协同过滤算法、Slope One算法、SVD算法以及隐语义模型,分别总结了这些算法的思路,算法步骤以及算法的优缺点。然后,重点研究了Mahout中推荐部分的知识,在此基础上搭建了基于Mahout的简易推荐系统,该推荐平台基于单机内存实现,可处理1M以下的数据量。随后,利用该平台对所介绍的推荐算法的性能进行了评测,主要的评测标准有MAE,Recall以及Precision。在仿真实践的过程中,发现对于不同的算法,当所选取的参数以及数据集不同时,评测结果也会发生变化。最后,针对视频推荐系统的特点,指出了传统推荐算法在视频推荐领域存在的不足,接下来,详细介绍了Item-based协同过滤算法和Collaborative Filtering with ALS-WR推荐算法,分析了这两种算法存在的优势以及不足,在此基础上提出了将这两种算法进行加权组合的混合推荐算法,并探讨了如何确定加权系数。仿真结果表明,该算法有效解决了因为数据稀疏引起的推荐精度差的问题,并且提供的推荐符合用户的个性化需求,对于视频推荐领域算法研究具有一定的帮助。
其他文献
HINOC(High Performance Network Over Coax)是在我国提出“三网融合”的大背景下,为了实现下一代广播电视网的需求及目标,提出的一种新具有自主知识产权的双向接入技术。在H
主板CPU供电电路是计算机硬件电路的重要组成部分。论文以F公司型号为9X5M01主板电源专案为研究课题,针对高端商用计算机CPU大电流,高稳定和大负载瞬态变化的特点,设计了新型
目前国内钻井井场信息源复杂多样,数据规范化程度不高,数据信息标准不统一,导致井场信息缺乏扩展性和开放性,难以实现井场信息的共享,成为井场“信息孤岛”。为满足数字化油
随着3G时代的到来,网络的升级使得运营商能够为用户提供更加丰富多彩的业务,这不仅给运营商带来了发展的机遇,也要求运营商调整其运营支撑系统以应对市场的变化。计费系统作
舰载雷达系统正朝着模块化、软件化方向发展,因此,相应的软件设计中就不得不面对模块化设计与分布式环境带来的复杂性。中间件技术为解决这一难题提供了一个良好的手段。通过
随着Internet的发展、音频压缩技术水平的提高以及信息隐藏技术领域研究的逐步成熟,数字音频水印的应用越来越广泛。现在音频产品被侵权及非法篡改的现象不断发生,由此给音频产
数字图像处理技术随着计算机软硬件的高速发展和普及,得到了飞速的发展,已广泛应用于遥感图像分析、通信工程、国防及军事等领域。图像分割作为联系图像处理和图像理解的纽带
高性能同轴电缆接入网(HINOC,High performance Network Over Coax)技术是我国在部署实施“三网融合”的背景下,面向下一代广播电视网(NGB)的发展需求,自主设计研发的新型宽
随着计算机和计算机网络的普及与应用,人们的生活和工作越来越依赖互联网。互联网的安全问题也引起了各个国家、机构的高度重视。针对互联网的攻击手段层出不穷,而分布式拒绝
认知无线电(Cognitive Radio,CR)技术是解决目前频谱资源紧张的有效手段。它的核心思想是二次利用已分配但却未获得充分利用的频谱,从而提高频谱利用率。从研究初期较窄的概