论文部分内容阅读
随着互联网的快速发展,人们已经从信息匮乏时代进入了大数据时代,和搜索引擎一样,个性化推荐系统也是一种帮助用户在信息过载的情况下快速发现有用信息的工具,它依据用户的特征及历史行为,主动向用户推荐符合其个人偏好的信息内容。协同过滤推荐算法作为个性化推荐系统中最重要的一种方法,已经在实践中取得了广泛的应用。本文首先梳理了最新的推荐系统总体发展趋势,然后总结归纳了主流推荐算法的各自特点、适用范围,重点介绍了新一代大数据处理框架Spark,包括设计机制与原理,为下一步的研究奠定了理论基础与实验基础。针对现行的协同过滤推荐算法所面临的冷启动、可扩展性、用户信任等关键问题,在以下几个方面作了相应的理论研究和应用研究:(1)提出了两种基于矩阵分解的协同过滤算法。为了解决基于传统模型的协同过滤算法的数据稀疏性与冷启动问题,引入权重因子,并结合隐式反馈信息,提出了两种基于奇异值分解(SVD)的协同过滤算法,CSVD算法和NCSVD算法。CSVD算法在基于偏置的矩阵分解模型上引入了权重因子,以调整用户偏置参数与物品偏置参数之间的权重问题,NCSVD在此基础上引入隐式反馈信息,改善了冷启动问题,在真实数据集上的实验证明表明,其能有效提高SVD系列算法的推荐精度。(2)将信任机制引入到上述改进的协同过滤算法中,构建了一种基于信任和矩阵分解的协同过滤算法。结果表明,信任是影响推荐系统的一重要因素,在推荐系统中对其研究是有意义的。(3)针对矩阵分解算法计算量大,训练时间长,难以应用到实际工程中的问题,在大规模分布式机器学习平台Spark上研究矩阵分解推荐算法CSVD的并行化设计及其实现,并对比了CSVD算法在不同平台上的训练时间和算法的加速比,实验证明,基于Spark的CSVD算法训练时间少于其他平台,并有很好的加速比,适用在大规模数据推荐中。