基于MapReduce的个性化PageRank算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ygl360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机处理能力的不断提高,互联网技术取得了飞速发展,各种基于Web2.0技术的新兴网络应用的出现使得越来越多的数据被收集和整合在一起,互联网中的网页数目激增。在当今以信息化为主要标志的时代里,海量的数据是社会宝贵而又重要的财富。互联网上的信息量呈现指数式上升,互联网上到处都是垃圾邮件和多余信息,人们必须消耗大量时间,寻找有用信息。现在大量冗余信息已严重影响人们获取信息的效率,所以,快捷、方便、高效地获取所需信息成为越来越多用户和运营商关心的一个焦点问题。随着互联网的发展,通过检索获得信息已经融入到普通人的日常生活之中了。本文首先对基于MapReduce的个性化PageRank算法相关背景和理论进行了阐述,然后分析并总结了MapReduce框架下的个性化PageRank算法的研究现状。在此基础上,进一步对基于MapReduce的个性化PageRank算法进行了更深一层的研究,着重分析算法中影响性能和效果的瓶颈因素,即迭代次数和I/O成本并非最优,进而提出了归并算法。然后对归并算法进行分析,包括算法的正确性分析、迭代次数分析和I/O成本分析。通过分析得出在所有随机游走算法中,归并算法的迭代次数最优,I/O成本也比舍入算法和SQRT算法要好。最后,本文使用SougouQ数据集,在MapReduce编程模型上实现个性化PageRank算法及其改进算法,并对所获得的实验数据进行对比和分析。通过对所需的机器时间、时钟时间和准确性的比较,表明了归并算法的可行性、合理性。改进后的算法不仅具有最低的迭代次数,而且所取得的误差也较低。
其他文献
在数字化时代的今天,由众多服务器构成的云计算数据中心中,物理服务器的负载较高或者较低,都将会影响系统整体的利用效率。为了实现整个架构的负载平衡,就须要使用虚拟机的动
随着计算机技术的飞速发展,计算机图形学被越来越多地应用到数字电影和游戏中。其中,人脸动画是计算机图形学中最典型的研究方向。近年来数据驱动形式的人脸表情动画也受到了
当前,网络和多媒体技术迅猛发展,多媒体信息急剧增长,网络多媒体数据中数据重复现象很常见,尤其是一些大型多媒体分享网站中,用户上传了大量重复的多媒体数据。重复数据不仅增加了
随着网络规模的增大及其相关技术的发展,越来越多的用户在网络上进行信息的交流,数据的传输等活动,享受着网络带给人们的服务和便利。应用在对等网络上的软件更新技术也逐渐取代
随着Internet的普及和信息技术的发展,微博用户人数迅速增长,微博数据呈爆炸式的增长。当用户登陆进微博之后所面对的就是大量的更新微博,使用户完全被眼前多种多样的微博信息所
视频中人工文本是由制作人员在影片制作后期手工添加的,用来补充说明图像内容的文本字符。人工文本与图像内容的联系紧密,使得它对图像内容的说明以及检索有着十分重要的意义,因
工业无线技术是一种面向设备间短距离、低速率信息交互的无线通信技术,是无线传感器网络技术在工业领域应用的具体化和实例化应用。工业无线传感器网络利用工业无线技术实现了
偏好处理是人工智能中的一个重要的研究内容。CP-nets(conditional preference networks,条件偏好网)是一个带标记的有向图,它编码相关变量之间的偏好关系。作为一种简单直观
随着互联网技术在众多领域飞速地发展,网络数据的存在形式也呈现出多样化的趋势。其中,数据流作为一种新型的数据形式已在众多应用领域广泛地出现。例如,传感器网络环境中的
随着嵌入式技术和无线通信的快速发展,无线传感器网络及其应用广泛应用于军事、环境监测和医疗救灾等领域,人们对于其性能等要求也越来越高。一般网络部署节点众多,环境复杂,且由