论文部分内容阅读
协同过滤推荐算法作为推荐系统领域最成功的算法之一,为解决互联网时代信息过载问题发挥了重要作用。协同过滤推荐算法依据用户对项目的历史评分记录等偏好信息,通过计算用户或项目间相似度查找与用户或项目相似的最近邻居集合,在此基础上预测出用户对目标对象的未知评分,利用集体智慧为用户提供智能推荐服务。目前在学术研究领域已经提出多种协同过滤推荐算法,它们在一定程度上都大大改善了推荐系统的性能,使用户获得的推荐质量更高。但随着互联网中信息和数据不断爆发式的增长,互联网产业已经进入了一个新的大数据时代。大数据以其数据体量大、数据类型繁多、处理速度快、价值高等特性,给计算机硬件和软件水平都提出了更高的要求。然而在大数据背景下,传统的协同过滤推荐算法存在的稀疏性和可扩展性等问题被进一步放大,导致推荐系统无法为用户提供有效的推荐服务。因此,为了改善协同过滤推荐算法在大数据背景下存在的稀疏性和可扩展性等问题,本文提出了一种基于Hadoop的改进聚类协同过滤推荐算法。首先,本文提出的协同过滤推荐算法利用ALS矩阵分解算法对原始高维稀疏的用户-项目评分矩阵中的缺失评分进行填充预处理。其次,采用经Canopy算法改进后的K-means聚类算法对填充后的用户-项目评分矩阵构建项目聚类模型,挖掘项目之间存在的潜在关系。再次,通过目标项目与项目聚类模型之间的相似度计算构建目标项目的推荐候选空间,在候选空间上进行预测并生成推荐结果,这大大节省运算资源并提升推荐效率。最后,本算法在Hadoop分布式集群上实现,充分利用了并行计算的优势。另外,算法中的矩阵分解预处理和改进项目聚类阶段均可以离线完成,使得在线推荐更加迅速。在Movie Lens的数据集上进行实验的结果显示,本文提出的协同过滤推荐算法在具备较高推荐质量的前提下,能有效改善大数据下协同过滤推荐算法的稀疏性和可扩展性问题。