论文部分内容阅读
微博作为Web 2.0时代下最典型的社会网络服务媒体,已融入到人们的日常生活中。用户通过微博可以随时随地发布和获取信息,是实现社会交往的重要途径。随着微博的快速发展,其蕴含了大量具有价值的信息,而从这些海量的信息中如何完成对用户的微博推荐已成为一个重要研究问题。本文正是在这种背景下展开的研究。本文的主要工作与创新点如下:(1)本文在研究相关主题模型以及其在推荐领域应用的基础上,结合LDA主题模型和KL散度提出了一种基于RPMPS模型的微博推荐方法。为保证该方法的实时性,基于RPMPS模型的微博推荐方法在数据处理过程中对微博进行过滤以提高响应时间,并定义了用户的兴趣集,以微博发布者的标签作为微博的初始分类。在此微博推荐方法中不但通过文档-主题概率分布矩阵获得用户信息与待推荐微博的主题相似性,而且还通过文档-词分布对词频概率进行统计获得用户信息与待推荐微博的内容相似性。最后对由主题相似性和内容相似性共同构成的待推荐微博与当前用户兴趣的总体相似度排序进而完成推荐。(2)由于微博具有短文本的特点,建模时容易受到微博特征稀疏性的影响。为了进一步提高微博推荐效果,本文研究了 BTM主题模型,并引入了新颖的聚类算法,在此研究的基础上提出了一种基于CFSFDP聚类和BTM主题模型的微博推荐方法。该方法提出了微博用户间信任度的思想,通过加入用户间的信任度有效地提高了推荐结果。首先通过CFSFDP聚类算法对微博进行聚类分组,进而选取与用户兴趣相似的微博组构成待推荐微博集合,然后通过BTM主题模型和KL散度计算待推荐微博与用户当前兴趣的主题相似性和内容相似性,再结合微博作者对用户的信任度形成待推荐微博与用户当前兴趣的总体相似度,最后根据相似度排序得到微博推荐列表。(3)通过使用微博爬虫工具爬取新浪微博数据作为实验数据,分别对本文提出的基于RPMPS模型的微博推荐方法以及基于CFSFDP聚类和BTM主题模型的微博推荐方法进行实验验证。实验结果表明两种微博推荐方法都能取得不错的推荐效果。