论文部分内容阅读
随着大数据时代的到来,新技术层出不穷,社交网络的发展如火如荼。微博是最热门的社交平台之一,拥有着庞大的用户群体,每天产生无数热点信息。在微博中,人们可以发布原创消息;用户可以在系统中找出自己感兴趣的对象,成为其粉丝;转发、评论、@等行为极大地丰富了用户之间的互动体验,也使得微博用户之间的交互更加多元化。然而,信息的泛滥也让用户难以选择,出现了信息过载的现象。推荐系统是用户和项目之间的桥梁,能够挖掘和捕捉用户的偏好,主动给用户推荐相关内容,目前已经被应用在很多场景下。协同过滤算法是其中最为经典的算法之一,然而该算法非常依赖用户-项目之间的评分数据,并且面临着严峻的数据稀疏性问题。在微博中,不存在用户对于项目的评分数据,因此不能简单地将协同过滤算法应用在微博关注推荐中。微博的社交网络特征给推荐问题提供了更多解决方案,融入社交行为、社交信任、邻居意见、隐语义模型等都会大大改善推荐的性能。本文首先对推荐系统的发展以及微博关注个性化推荐进行了研究,介绍了协同过滤算法的相关技术和原理,阐述了当前算法面临的困难与挑战。通过腾讯微博数据集分析了微博社交网络的相关特征、社交图谱、用户关系等,重新定义了微博关注推荐的相关术语,对微博中的不同社交行为进行建模,并介绍了系统的整体流程、技术平台、系统环境等。针对Top-N推荐问题,提出了基于社交相似度的微博关注Top-N推荐算法。根据微博关注行为、互动行为以及历史推荐记录分别计算相似度,通过计算出来的相似度找出最近邻集合,在此基础上给用户进行推荐。在微博数据集上对比了不同相似度计算方法的准确率、召回率和Fl-measure,并在Hadoop平台上利用MapReduce对算法进行了并行化设计,提高了算法的执行效率。针对评分预测问题,提出了融合社交信任和隐语义模型的微博关注推荐算法。将用户的历史推荐记录建模为评分矩阵,引入社会化推荐,通过用户之间的互动行为数据(包括@、评论和转发)计算用户之间的隐式信任,从用户的直接社交关系中得到用户之间的显式信任,将显式信任和隐式信任结合来构建扩展信任矩阵并融入SVD++模型。最终在KDD Cup 2012数据集上的实验表明算法在RMSE和MSE上得到了更好的结果。