论文部分内容阅读
在互联网高速发展的今天,信息超载问题日益严重,互联网技术的下一发展趋势就是解决信息超载问题,针对每个用户之间的差异,为用户提供其最感兴趣的信息。因此,能够根据用户之间的差异,利用相应算法帮用户发现其喜欢内容的个性化推荐技术应运而生。近年来,学术界对推荐系统的研究热度越来越高,已经逐步形成了一门独立的学科,各大互联网公司也都对自己的推荐系统大力投入。但推荐系统中的冷启动、数据稀疏性、可扩展性问题依然没有得到全面、良好地解决,而专门针对推荐系统的推荐攻击方法也日益增多。本文以基于协同过滤的个性化新闻信息推荐系统为研究重点,主要工作为:1)提出高效的聚类及相似度计算方法,在协同过滤的基础上结合频繁队列计算推荐评分,解决了用户评分矩阵的稀疏性问题、可扩展性问题和用户冷启动问题。2)针对新闻信息的特性,根据新闻的不同主题对新闻进行分类,通过用户历史行为预测其当前的主题兴趣,建立用户配置文件,对推荐结果进行过滤。3)基于MapReduce模型实现可扩展的离线聚类算法,使得个性化信息推荐系统能够并行运行,满足了海量信息和海量用户的个性化推荐需求。4)给出了通用的个性化推荐系统的整体设计,包括online部分、offline部分及其工作流程。并根据新闻领域的特点,给出用户主题兴趣预测模块的设计方案。论文最后对上述算法进行了验证,经过MinHash聚类后的推荐效率随着数据量的增加优势越来越明显;基于MinHash和频繁队列的混合推荐算法,对于冷启动用户产生推荐的准确率和召回率相对与传统推荐算法的准确率和召回率均有50%以上的提升;基于MinHash聚类、频繁队列、主题兴趣预测的混合推荐算法,产生推荐结果的准确率和召回率相比与传统推荐算法的准确率和召回率均有10%以上的提升