论文部分内容阅读
新闻推荐系统中,基于内容的推荐生成的推荐结果具有个性化的优势,但存在推荐多样性的问题,只能推荐出与用户过去阅读内容相似的新闻。协同过滤推荐不存在多样性问题,但在个性化方面却表现不足,用户的阅读兴趣不可能由相似用户完整表述;同时,协同过滤还存在冷启动问题,候选新闻必须等待足够的点击才可能计算出目标用户对它的相似度。混合推荐可以兼顾推荐结果在多样性和个性化上的需求,但生成满足多样性需求的那部分结果时依然存在冷启动问题。针对上述问题,本文在充分研究基于内容的推荐、协同过滤以及两者的混合推荐的基础上,提出了一种基于内容的推荐与协同过滤融合的新闻推荐方法。该方法在兼顾多样性和个性化需求的同时,可有效避免新闻推荐的冷启动问题。论文首先介绍了新闻推荐的研究背景、现状以及常用方法,分析了现有方法存在的问题;接着用基于内容的推荐发现用户对特征词的既有兴趣,用协同过滤发现用户对特征词的潜在兴趣;然后用最大值法融合用户既有兴趣和潜在兴趣,得到兼顾多样性与个性化的融合兴趣模型;最后将候选新闻与构建的融合兴趣模型进行相似度匹配,生成推荐结果。在发现用户既有兴趣时,考虑到用户兴趣与时间变化的相关性,论文提出了一种带时间权的既有兴趣模型构建方法,较好反映出了用户兴趣随时间的变化关系。在构建相似用户群时,考虑到仅以行为相似度来评价用户间的相似性存在的准确性不足的问题,论文提出了一种行为相似度与内容相似度协同的混合相似度计算方法,提高了相似用户群的准确性。论文以DataCastle的财新网阅读记录为数据集,以F-measure和Diversity为评价指标,以基于内容的推荐、协同过滤推荐和分区混合推荐方法为参照基准进行对比实验。通过实验看出,论文融合方法的推荐结果,其F-measure和Diversity比基于内容的方法分别提高了34.4%和38.2%;比协同过滤方法F-measure提高了8.6%。虽然与混合推荐的F-measure和Diversity无明显差距,但论文方法在推荐时,候选新闻无需等待积累足够的用户点击量,没有混合推荐方法存在的冷启动问题。实验结果表明,论文方法生成的推荐结果能够满足用户阅读在多样性和个性化上的需求,同时有效避免推荐的冷启动问题。