论文部分内容阅读
随着微博平台中用户的爆炸式增长,其用户创造的信息也随之呈指数级增长。从而导致过量的数据使得用户无法有效地获取自己想要的信息,即信息的使用率反而降低,信息过载的问题则日益加剧。目前的搜索引擎等技术只能满足人们部分的需求,没有个性化的考虑,仍无法有效地解决这个问题。用户推荐作为一种信息过滤手段,是解决这个问题非常有潜力的方法。因而如何发展高效的,可扩展的,非常精确的用户推荐算法是一个巨大的挑战。本文根据目前流行的微博平台的特性提出了两种用户推荐算法,一种是基于领域偏好度的名人推荐算法,另一种是基于社区信息传播力的用户推荐算法。基于领域偏好度的名人推荐算法将用户推荐问题转化为一个基于链接预测的分类问题,它基于名人用户所属的领域来围绕目标用户和被推荐名人用户提取一系列的特征并以此构建一个n维的特征向量,再利用分类器过滤有限的名人集合而得到该用户的名人推荐集合。基于社区信息传播力的用户推荐算法则是基于社区划分的思想,即将兴趣相似的用户聚到一个社区,通过分析该社区的消息流动情况,来挖掘社区中对消息传播具有控制能力的消息中间人,同时结合目标用户自身的特点从消息中间人中选取合适的用户推荐给他。另一方面,为了解决当前海量数据处理的问题,本文针对两种推荐算法还提出基于Map-Reduce的并行化实现方法。通过在微博平台数据集上的实现与测试,验证了两种推荐算法的可行性及有效性。根据推荐算法的一般评估方法,本文提出的两种推荐算法与其它常用的推荐算法相比,效果均有所提高。同时基于Map-Reduce的并行化实现,算法性能明显高于其单机环境。