论文部分内容阅读
信息技术的迅速发展、数据的急剧增加,带来了愈来愈严重的“信息过载”问题,人们面对海量的数据无所适从。用户期望在web端和移动端能即时快捷地看到自己感兴趣的文章和话题。推荐系统(recommender systems)可以根据用户个人信息及行为特点,例如性别、年纪、偏好以及用户选择记录等,从海量信息中选择其可能感兴趣的内容推荐给用户。推荐系统对用户信息和行为数据的不断采集,推荐质量也在相应提高,不断接近精确推荐。但是,存储空间的可扩展性与分析计算的效率等瓶颈问题也是推荐系统必须面对和解决的,单纯依靠提升服务器存储空间和计算性能并不是最优的解决方案。基于分布式计算开源软件框架Apache Hadoop能够解决推荐系统的可扩展性问题,并且已经存在很多解决方案,然而目前基于Hadoop1.0开发的推荐系统在可靠性、扩展性、资源利用率及处理多框架等方面存在某些缺陷。本文在深入研究Hadoop2.0的分布式文件系统HDFS2、资源管理系统YARN和编程思想MapReduce的基础上,首先对基于Hadoop2.0的云计算体系架构进行研究,研究了以YARN(Yet Another Resource Negotiato)为核心的弹性云计算平台。YARN作为Hadoop2.0新增的一个子项目,它可以将各种计算框架放在一个集群中运行,管理、调度和分配由资源管理器统一进行,使得分布式计算系统迈入平台化时代。其次对弹性云计算体系中的存储层进行重点研究。研究了基于NAS与SAN的云存储整合方案,部署了私有云存储平台,为数据中心及数据密集型研究提供支持。最后对基于Hadoop2.0的混合推荐系统进行研究,在弹性云计算平台架构之上设计了一个基于Hadoop2.0的混合推荐系统,并对各个模块进行了阐述。重点阐述了YARN中应用程序的设计方法,包括客户端程序的设计和ApplicationMaster的设计。论文在理论上对云计算环境下的推荐系统研究有一定的探索意义,在实践上对基于Hadoop2.0构建个性化推荐系统具有参考价值。