论文部分内容阅读
随着社交网络的兴起,微博等社会化媒体已经越来越深入到人们的生活中。用户随时随地发布的微博,记录和反映了用户在当时情景下的兴趣和喜好。面对海量的社交网络数据,如何有效的利用用户的信息,提取得到用户的兴趣模型,从而对用户进行信息推荐,免除用户收到信息过载的干扰,已经成为了越来越重要的研究课题。在本文中,首先介绍了推荐系统的相关概念,分析了现在国内外的研究现状,并介绍了主流的基于协同过滤的推荐算法和基于内容的推荐算法。针对基于协同过滤的推荐算法,对推荐算法中传统的相似度算法进行了定性和定量分析,并针对传统相似度算法中的不足,引入了用户间相似度非对称的思想,提出了一种新的非对称相似度算法(ASC-Pearson相似度算法),并使用MovieLens数据集对新的非对称相似度算法的效果进行了验证。为了建立合适的主题模型从而对用户的兴趣主题进行更好的描述,本文针对微博等短文本的特点进行了分析,使用标签提取的方法将微博数据分为包含分类信息的有监督样本和不包含分类信息无监督样本。通过对传统的LDA主题模型进行改进,提出了一种新的半监督LDA主题模型,可以更加充分的利用微博样本中的先验信息,经过训练得到表现更好的主题模型。在得到微博数据的半监督LDA主题模型的基础上,本文对目标用户的微博进行抓取和分析,引入时间顺序加权因子,提出了OWF-Max-Weibo算法来对用户建立兴趣主题模型。通过编写微博爬虫,从抓取到的新浪微博用户中选取兴趣分布特点不同的示例用户,对传统的ATM算法、Max-Weibo算法和OWF-Max-Weibo算法的效果进行比较,验证了OWF-Max-Weibo算法可以更好的反映出用户兴趣随时间的变化趋势。在此基础上,搭建了社会化推荐系统,根据巴氏距离计算用户兴趣主题模型与推荐对象模型之间的相似度,实现了基于用户兴趣模型对用户推荐相关主题内容的新闻、博客等文章。针对抓取得到的示例用户的微博内容,人工对示例用户的微博主题进行分析,并与社会化推荐系统的推荐结果进行对比,验证了该社会化推荐系统的有效性。