论文部分内容阅读
近年来,随着计算机处理能力的不断提高,互联网技术取得了飞速发展,各种基于Web2.0技术的新兴网络应用的出现使得越来越多的数据被收集和整合在一起,互联网中的网页数目激增。在当今以信息化为主要标志的时代里,海量的数据是社会宝贵而又重要的财富。互联网上的信息量呈现指数式上升,互联网上到处都是垃圾邮件和多余信息,人们必须消耗大量时间,寻找有用信息。现在大量冗余信息已严重影响人们获取信息的效率,所以,快捷、方便、高效地获取所需信息成为越来越多用户和运营商关心的一个焦点问题。随着互联网的发展,通过检索获得信息已经融入到普通人的日常生活之中了。本文首先对基于MapReduce的个性化PageRank算法相关背景和理论进行了阐述,然后分析并总结了MapReduce框架下的个性化PageRank算法的研究现状。在此基础上,进一步对基于MapReduce的个性化PageRank算法进行了更深一层的研究,着重分析算法中影响性能和效果的瓶颈因素,即迭代次数和I/O成本并非最优,进而提出了归并算法。然后对归并算法进行分析,包括算法的正确性分析、迭代次数分析和I/O成本分析。通过分析得出在所有随机游走算法中,归并算法的迭代次数最优,I/O成本也比舍入算法和SQRT算法要好。最后,本文使用SougouQ数据集,在MapReduce编程模型上实现个性化PageRank算法及其改进算法,并对所获得的实验数据进行对比和分析。通过对所需的机器时间、时钟时间和准确性的比较,表明了归并算法的可行性、合理性。改进后的算法不仅具有最低的迭代次数,而且所取得的误差也较低。