论文部分内容阅读
近几年随着互联网以及电子商务的飞速发展,互联网中的信息呈现出爆炸性的增长,用户无法从过量无用信息中挖掘出自己需要的物品或者信息,在这种情况下,个性化推荐系统应运而生。个性化推荐系统可以根据用户的喜好为用户推荐物品,帮助用户迅速找到自己的兴趣方向。但是随着个性化推荐系统的广泛应用,冷启动以及稀疏性等问题开始出现,基于单一算法的推荐系统已经不能满足实际需要。同时由于互联网信息的爆炸性增长,基于单机算法的推荐系统已经无法处理大规模数据。基于上述问题,论文对基于二分图的混合推荐系统进行了研究。首先对推荐系统的相关概念进行了介绍,并详细描述了基于隐语义模型的推荐算法SLIM (sparse linear method)以及基于二分图的推荐算法。本文对SLIM的核心思想进行了研究,分析了SLIM的缺点:无法学习未被同一用户评价过的物品之间的相似度;接着基于二分图对SLIM算法进行了改进,提出了一种新的混合推荐算法UIIM (user-item interest model),并通过实验验证了UIIM的推荐质量。其次,针对大规模数据带来的问题,设计实现了基于Spark的并行UIIM算法(Parallel_UIIM),并通过实验验证了Parallel_UIIM的准确性以及效率。经过实验证明,混合推荐算法UIIM的推荐质量要优于SLIM,对于评价量稀疏的用户,质量也同样有所提高;基于Spark实现的Parallel_UIIM算法在大数据规模上的效率要明显优于单机算法。最后,基于海量数据分析平台,设计了混合推荐系统的架构,并基于Mapreduce实现了三个数据预处理的算法,利用并行后的混合推荐算法Parallel_UIIM构建了混合推荐系统,为混合推荐算法的应用提供了案例。