基于Hadoop的改进聚类协同过滤推荐算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:z534921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协同过滤推荐算法作为推荐系统领域最成功的算法之一,为解决互联网时代信息过载问题发挥了重要作用。协同过滤推荐算法依据用户对项目的历史评分记录等偏好信息,通过计算用户或项目间相似度查找与用户或项目相似的最近邻居集合,在此基础上预测出用户对目标对象的未知评分,利用集体智慧为用户提供智能推荐服务。目前在学术研究领域已经提出多种协同过滤推荐算法,它们在一定程度上都大大改善了推荐系统的性能,使用户获得的推荐质量更高。但随着互联网中信息和数据不断爆发式的增长,互联网产业已经进入了一个新的大数据时代。大数据以其数据体量大、数据类型繁多、处理速度快、价值高等特性,给计算机硬件和软件水平都提出了更高的要求。然而在大数据背景下,传统的协同过滤推荐算法存在的稀疏性和可扩展性等问题被进一步放大,导致推荐系统无法为用户提供有效的推荐服务。因此,为了改善协同过滤推荐算法在大数据背景下存在的稀疏性和可扩展性等问题,本文提出了一种基于Hadoop的改进聚类协同过滤推荐算法。首先,本文提出的协同过滤推荐算法利用ALS矩阵分解算法对原始高维稀疏的用户-项目评分矩阵中的缺失评分进行填充预处理。其次,采用经Canopy算法改进后的K-means聚类算法对填充后的用户-项目评分矩阵构建项目聚类模型,挖掘项目之间存在的潜在关系。再次,通过目标项目与项目聚类模型之间的相似度计算构建目标项目的推荐候选空间,在候选空间上进行预测并生成推荐结果,这大大节省运算资源并提升推荐效率。最后,本算法在Hadoop分布式集群上实现,充分利用了并行计算的优势。另外,算法中的矩阵分解预处理和改进项目聚类阶段均可以离线完成,使得在线推荐更加迅速。在Movie Lens的数据集上进行实验的结果显示,本文提出的协同过滤推荐算法在具备较高推荐质量的前提下,能有效改善大数据下协同过滤推荐算法的稀疏性和可扩展性问题。
其他文献
基于协同过滤的传统推荐系统在解决信息过量问题时发挥着越来越重要的作用。在网格环境中,推荐系统通过提供高品质的个性化推荐,帮助网格用户选择更好的服务。另外,推荐系统
随着计算机技术和网络技术的飞速发展,网络安全问题越来越突出,不断提出新的挑战。传统的防御策略以及攻击手段与方法日趋复杂化和多样化。入侵检测逐渐成为信息安全领域的一个
随着国内石油工业的较快发展,计算机网络化的管理模式得到了普遍推广,作为勘探和开发油气田的重要环节,石油钻井信息化技术的发展从面向事务处理阶段逐渐转向面向分析决策阶段。
随着网络技术和互联网的迅速发展,网络应用的普及化程度越来越高,网络上传输的数据量激增。为了充分发挥网络资源的作用,科学合理管理网络的重要性日益凸显。利用网络监控实现网
随着软件工程的发展,基于组件的开发已经成为目前软件开发的主流模式。组件的可靠性和安全性直接影响整个系统的稳定性。组件的封装特性使得基于组件的测试具有较大的难度。
随着集群技术的发展,结点和链路的失效不可避免。因此,在有结点和链路失效下对通信终端间存在可靠通信路径的概率和所有正常结点的互通率进行研究就非常有必要了。由于网络中结
组合优化是运筹学的重要分支,主要通过对数学方法的研究寻找离散事件的最优编排、分组、次序或筛选等。大多数这类问题属于NP完全问题。当问题规模逐渐扩大时,其解空间呈组合爆
随着计算机网络的快速发展,网络协议测试技术成为人们日益关注的焦点,而如何才能设计出可靠的网络协议测试工具已经成为人们必须要面对的问题。为此,协议工程(Protocl Engine
互联网的快速发展使得 IP地址资源日渐枯竭。将IPv4地址空间升级为IPv6地址空间可以从根本上扩充地址空间,但还需要大量的升级换代工作;而另一途径是使用NAT(Network Address Tr
随着经济的发展,项目管理变得越来越重要。项目调度作为项目管理的重要组成部分,具有网络结构特点,各个项目成员分布在网络的节点上,负责整个项目的一项或几项工作,拥有各自的资源