论文部分内容阅读
随着互联网的飞速发展和互联网信息爆炸式的增长,推荐系统越来越受到人们的关注。微博,作为今后互联网发展方向的一个重要的代表模式,已经成为了许多人最重要的沟通、营销工具。微博用户规模巨大且还在继续增长,产生的海量微博数据的处理和利用,成为一个热门的研究课题,而对这些海量的微博数据重要的应用之一,就是基于微博用户数据的推荐。 本文将在着重讨论与研究相关的海量数据处理技术的同时,研究与设计一个新的微博数据推荐应用——“根据用户兴趣推荐关注”,论文的主要工作如下: 首先,研究与讨论了信息服务个性化的需求和推荐系统及其常用技术,包括信息检索技术及信息过滤技术。在信息过滤技术的介绍中,重点阐述了基于内容的过滤技术和协同过滤技术的算法思想和各自的优缺点。 其次,本文研究与讨论了基于Google三大核心技术原理而实现的一个优秀的开源项目:Hadoop项目,主要涉及到了相关的Hadoop Map Reduce架构,HBase文件存储,HDFS分布式文件系统。 最后,对基于MapReduce进行算法改进的基本原则和技巧进行了研究,然后对推荐系统中常用的基于内容的推荐算法进行了详细分析,并阐述了基于MapReduce的算法改进;设计了一个基于Hadoop的微博用户推荐系统,介绍了该系统的设计思路、体系结构和数据结构,并对基于用户个人资料、基于微博内容、基于用户关注关系的推荐算法思路进行了详细阐述。 实验表明,论文设计的微博用户推荐系统,可以帮助用户找到不易被发现的具有相同或相近兴趣的微博用户,具有良好的实用性,对现有的微博推荐应用是一个良好的补充。