论文部分内容阅读
信息化时代,互联网已经触及人们生活的各个角落。网络中每天都会产生大量的商品信息及用户行为数据。为了解决信息过载问题,使得用户可以在较短的时间内迅速发现自己感兴趣的信息或商品,同时也使得商家可以将自己的商品或服务能够快速的扩散,准确的展示在用户面前,推荐服务被广泛使用。推荐算法通过分析大量的用户行为日志,挖掘用户行为所反映的用户潜在兴趣取向,给不同用户提供不同的个性化推荐信息。由于推荐系统在用户与商家间同等重要的地位,其已经成为业界的研究热点问题。本文结合新闻推荐这一实际应用场景的特点及其面临的主要问题,提出了一种基于用户兴趣标签模型的并行化User-Based改进推荐算法。本文的研究工作主要有:结合用户点击过的文本类别信息及新闻热度,为用户构建兴趣标签模型,更加准确的反映用户的真实兴趣,提高了用户相似度计算的准确性。引入了用户点击项目的时间参数,体现用户近期的兴趣取向,提高用户打分的合理性。基于向量空间模型及TF*IDF模型,计算文章间的余弦相似性,解决了新项目的冷启动问题。同时为了提高该阶段的运行效率,本文通过逆向最大匹配分词算法对文本进行分词,然后通过朴素贝叶斯分类算法对文本进行分类,文章间的相似度计算只在同一分类下进行,有效降低了文本相似性计算的时间复杂度,提高了算法运行效率。通过并行的Top-N算法计算最热门的项目集合,解决了新用户的冷启动问题。基于MapReduce编程模型对推荐算法进行了并行化改造。面对海量的用户行为日志,改进推荐算法依然可以在较短的时间内进行训练,提高算法的运行效率,使其可以有效应用于实际生产环境中。通过相关实验证明了改进推荐算法在推荐准确性及训练效率方面较之传统User-Based推荐算法都取得了不同程度的提升。本文研究的基于用户兴趣标签模型的并行化User-Based改进推荐算法取得的主要成果有:基于用户点击过的项目的类别信息构建用户的兴趣标签模型,引入用户对商品点击的时间参数,深度挖掘用户的兴趣喜好,提高了推荐结果的相关度与准确性;通过计算文本相似性与统计项目点击Top-N集合,解决了推荐算法的冷启动问题;基于MapReduce编程模型,对算法进行并行化改造,提高了算法的运行效率。