基于海量用户行为的推荐算法研究

被引量 : 8次 | 上传用户:lilinli2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代,互联网已经触及人们生活的各个角落。网络中每天都会产生大量的商品信息及用户行为数据。为了解决信息过载问题,使得用户可以在较短的时间内迅速发现自己感兴趣的信息或商品,同时也使得商家可以将自己的商品或服务能够快速的扩散,准确的展示在用户面前,推荐服务被广泛使用。推荐算法通过分析大量的用户行为日志,挖掘用户行为所反映的用户潜在兴趣取向,给不同用户提供不同的个性化推荐信息。由于推荐系统在用户与商家间同等重要的地位,其已经成为业界的研究热点问题。本文结合新闻推荐这一实际应用场景的特点及其面临的主要问题,提出了一种基于用户兴趣标签模型的并行化User-Based改进推荐算法。本文的研究工作主要有:结合用户点击过的文本类别信息及新闻热度,为用户构建兴趣标签模型,更加准确的反映用户的真实兴趣,提高了用户相似度计算的准确性。引入了用户点击项目的时间参数,体现用户近期的兴趣取向,提高用户打分的合理性。基于向量空间模型及TF*IDF模型,计算文章间的余弦相似性,解决了新项目的冷启动问题。同时为了提高该阶段的运行效率,本文通过逆向最大匹配分词算法对文本进行分词,然后通过朴素贝叶斯分类算法对文本进行分类,文章间的相似度计算只在同一分类下进行,有效降低了文本相似性计算的时间复杂度,提高了算法运行效率。通过并行的Top-N算法计算最热门的项目集合,解决了新用户的冷启动问题。基于MapReduce编程模型对推荐算法进行了并行化改造。面对海量的用户行为日志,改进推荐算法依然可以在较短的时间内进行训练,提高算法的运行效率,使其可以有效应用于实际生产环境中。通过相关实验证明了改进推荐算法在推荐准确性及训练效率方面较之传统User-Based推荐算法都取得了不同程度的提升。本文研究的基于用户兴趣标签模型的并行化User-Based改进推荐算法取得的主要成果有:基于用户点击过的项目的类别信息构建用户的兴趣标签模型,引入用户对商品点击的时间参数,深度挖掘用户的兴趣喜好,提高了推荐结果的相关度与准确性;通过计算文本相似性与统计项目点击Top-N集合,解决了推荐算法的冷启动问题;基于MapReduce编程模型,对算法进行并行化改造,提高了算法的运行效率。
其他文献
在高职院校教学中,教师创新能力发展有重要的意义,对高职院校体育教师创新能力进行研究,剖析体育教师创新能力影响因素,对高职院校体育教师创新能力发展有重要意义。本文主要
大学的财政——确定内部成本构成、给教育服务定价、获取开展各种活动所需的资源,已成为全美争论的一个焦点。没有任何地方比在公立大学里的争论更加激烈,因为美国绝大多数的
随着社会的不断发展和文明程度的逐渐提高,人们拥有的闲暇时间越来越多。闲暇时间的增多为人的全面和谐发展提供了可能性,但闲暇时间的增多并不意味着闲暇生活质量的提高。闲暇
针对贮箱生产过程的关键环节——焊接,开展焊前激光清洗技术研究,减少焊前表面处理所产生的多余物;同时开展焊后近封闭式打磨技术研究,提升背部焊漏打磨的多余物吸除效果,减
铁路货物运输“实货制”改革是铁路运输管理部门面对激烈的市场竞争,以提高货运服务质量换市场的思路提出的一项重大的货运改革举措。货运改革强调以客户为中心的理念,采用货
经历了国际金融危机的考验,世界上许多国家均已意识到只有在科技创新和培育新经济增长点这两方面占据优势,才能掌握发展的主动权,因此都在努力寻找推动下一轮经济增长的新引
青年马克思主义者的培养是加强马克思主义工程建设的重要工程,随着我国高等教育改革的不断深入发展和推进,马克思主义者作为加强马克思主义研究的重要高校人才队伍,对整个马
随着新课程改革和素质教育的推进,学生的全面发展和终身发展的教育理念日益越来越受到关注。高中地理新课程的教学目标从“知识与技能”、“过程与方法”、“情感、态度与价值
摘要:以信息技术为代表的高新技术正带领人们迈入信息时代。但是随着信息化进程的不断加快,企业所面临的竞争环境也越来越残酷,因而希望通过信息化来加强企业管理,提升企业综
纤维素大量的存在于自然界中,在能源危机和环境保护日益成为焦点的今天,纤维素优良的性能和无限的潜能受到了更多的关注,被称为“禾草森林”的芦苇具有高生物量、强适应性和抗逆