基于Spark Streaming实时推荐系统的研究与实现

来源 :武汉邮电科学研究院 | 被引量 : 5次 | 上传用户:lipz7517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统需要可以推荐个性化的信息给用户。然而,现今的推荐系统通常不可以实时、动态的推荐个性化信息,这是推荐系统的实时问题。另外,由于经常存在用户/物品评分矩阵数据稀疏的问题。同时,由于新用户或新物品没有评论信息,因此不能准确的对新用户或新物品推荐,这是推荐系统中的冷启动问题。对于上述问题,本文提出了p-相似度来解决传统协同过滤算法对数据稀疏的问题。在p-相似度的基础上本文提出了CF-K-means混合推荐算法,优化了基于矩阵的协同过滤算法的方案,缓解了推荐系统中冷启动问题。同时本文研究了实时推荐应用,提出了适用实时推荐的算法,本文的主要研究内容包括:(1)针对推荐系统的数据稀疏问题,本文提出了p-相似度的相似度计算方法。该方法优化了传统的协同过滤算法中的相似度计算的过程,对于协同过滤算法求相似度加入了p因子,使用p-相似度的推荐算法更好的适应了数据稀疏的情况,缓解了数据稀疏对推荐的影响。(2)针对现今协同过滤算法的冷启动问题,提出了CF-K-means混合推荐算法,该算法解决了传统的协同过滤算法中存在的冷启动问题。基于矩阵分解的协同过滤算法会分解用户/物品的特征矩阵,然后对分解的新用户/新物品进行聚类,获得新用户/新物品的K个最近邻。使用K个最近邻的特征信息计算出新用户/新物品的特征向量,然后补充评分矩阵中新用户/新物品没有的评论,使用p-相似度计算方法计算相似度,进行推荐,从而解决冷启动问题。在该算法的基础上又提出了增量的混合推荐算法,提升了算法实时推荐的推荐效率。(3)基于Spark Streaming的实时推荐应用的研究。本文对实时推荐应用进行了研究,提出了推荐系统的整体架构,分为数据展示层、数据处理层、数据储存层。同时,对实时推荐的关键模块进行了研究和实现,包括四个关键模块:数据的模拟与订阅发布模块、流计算模块、实时推荐系统推荐模块、分布式储存模块,本文的数据储存主要用Hbase实现。最后对实时推荐系统进行了实验,验证了本文提出的实时推荐系统满足需求。
其他文献
为了解决不同数据源集成时的语义冲突,实现语义共享,首先必须要进行语义相关属性识别。针对不同类型的语义相关属性及其实例的表达形式,提出了一种更加具有通用性的语义相关属性
提到重庆的自助餐厅,大多数人想到的是巴菲盛宴或者四海一家。不过相比大型全家乐自助餐,有这样五家任性的自助餐厅,则显得更加隐秘而高贵。
随着企业信息化建设的进程,数据库对企业的生产经营活动越来越重要,但是由于存在许多不可避免的故障可能造成数据库的数据丢失或破坏,因此必须对企业的数据库设计一个完备的