论文部分内容阅读
个性化新闻推荐系统是根据每个登录过推荐系统的用户的历史行为,使用推荐算法为每个用户推荐其感兴趣的新闻。基于协同过滤算法的个性化新闻推荐算法是根据用户的历史行为计算新闻的相似度,并完成相似新闻的推荐。这种相似度的计算方法没有挖掘新闻本身的特点,存在数据稀疏的问题。同时,协同过滤算法没有考虑用户的兴趣随时间发生动态变化的问题。针对推荐算法新闻相似度计算存在数据稀疏问题,本文着重研究了国内外文本相似度的计算方法,提出了适合新闻特点的混合相似度计算方法。改进的相似度计算方法是在现有的相似度计算方法的基础上,考虑了新闻文本中不同词性的词语重要性不同、新闻标题中的词语重要高于新闻正文中的词语这两个特点,并融合了基于用户行为的相似度计算方式,最后将改进的新闻相似度计算方式用于新闻推荐算法中。针对协同过滤算法没有考虑用户兴趣变化的问题,本文着重研究了国内外现有个性化新闻推荐算法,提出了适应用户兴趣变化的个性化新闻推荐算法。一般来说,用户近期浏览的新闻对用户的兴趣模型贡献较大,但用户兴趣具有反复性的特点,即早期的兴趣也有可能对用户有影响。因此,在协同过滤算法的基础上,建立了用户的近期兴趣模型和基于行为反复的兴趣模型,融合得到用户稳定的兴趣模型,并用于推荐算法中。论文中的数据集采用的是DataCastle的财新网阅读记录,评测指标是F-measure值和平均绝对误差值。适合新闻特点的混合相似度计算方法与现有的相似度计算方法都用于推荐算法进行对比,推荐结果显示,改进后的相似度计算方法的推荐结果的Fmeasure值比其他的算法最大高出10.5%,这说明了改进后的算法能更精确地计算新闻相似度值,有效避免了数据稀疏问题;适应用户兴趣变化的个性化新闻推荐算法的F-measure值与传统的协同过滤算法、现有的推荐算法最大高出11.5%,平均绝对误差值最高下降了8%,这说明了改进后的算法能更好地反映用户的兴趣。论文最后完成了个性化新闻推荐系统的设计与实现。通过对个性化新闻推荐系统进行总体分析和需求设计,并将改进的推荐算法应用于系统设计中,最终完成了整个新闻推荐系统。