基于云计算的PageRank算法改进

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:happywz521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和信息技术的快速发展推动了大众对数据的生产和消费,信息为数据披上了外衣,人们进入了一个网络密布、数据激增的时代。在这个信息化时代,Web网页呈现出几何数量级增长趋势。用户可以很便捷的发布和获取各种信息,但是也面临着如何从数以TB甚至PB量级的网页数据中快速精准地定位有用信息的问题。人们获取信息的途径,除了网页文本信息,还有网页间链接结构,从Web网络结构中我们可以挖掘出隐藏的潜在信息。传统单机模式下的Web网络结构挖掘PageRank算法,无论从空间存储还是计算效率上都已远不能满足我们的需求。云计算的出现很好地解决了这个问题。利用云计算技术,人们可以很方便的通过互通的网络环境搭建云平台,利用低配置的计算机集群获取强大的存储和计算能力。在详细研究Web结构挖掘的经典算法——Google的PageRank算法,云计算的关键技术MapReduce编程模型及其开源实现——Hadoop框架的基础上,针对PageRank算法数据处理过程中,网页结构关系规模过大造成的数据存储、网络传输和输入输出资源消耗过大的问题,在PageRank计算开始之前,本文通过网页链接结构本身的特性(一个网站内的网络节点分布比较集中,而不同网站之间的链接不是特别紧密)进行网站分割。实现Key压缩,从而降低Map函数加载驱动、初始化常量造成的资源消耗。对切割后的数据,采用Hash映射和LZO双重压缩技术减低传输过程中的时间开销。通过K步长算法,在并行迭代过程中尽量减少节点之间的通信,加快迭代收敛速度。搭建Hadoop平台,利用不同规模的数据集,对传统并行PageRank算法和改进的并行算法进行时间和空间开销上的评估。实验结果表明改进的并行算法在确保空间占用的基础上明显加快了 PageRank算法的执行速度。实现PageRank算法在微博平台中权威值计算中的应用,通过实验结果验证算法的有效性。
其他文献
深生态学是西方环境伦理学的一种新的范型。文章分析了深生态学产生的社会思想背景,浅生态学运动和深生态学运动的区别;论述了深生态学的最高规范和基本原则,深生态学对现代
宋代四川是四川历史上封建经济高度发达的黄金时期,其发达的经济培育了典型的封建市场。本文试图从三个方面来探析宋代四川市场一、市场类型;二、市场等级体系与市场网络;三
伴随我国经济的整体快速发展,电力企业的自身规模正在不断扩大,发展速度也出现了明显的加快。在我国社会主义市场经济体制的不断发展背景之下,电力企业所面临的挑战更为严峻,
目前,我们国家的电力企业还是有很多都是在依靠政府的方针政策和扶持生存的,但是随着社会的发展和进步,这种纯粹的依赖已经无法满足其政工工作的需求了。相关的电力企业必须
霍桑的人物性格塑造极具特色。《红字》中,霍桑用隽永的文字向我们展现了4位中心人物,他们各具特点,紧紧围绕小说的主题慢慢展现在读者面前。海丝特的勇敢,迪明斯代尔的懦弱,
“出走”行为是人类生存的一种基本状态和精神欲求,对社会发展产生了重要影响。女性往往将“出走”作为争取权利反抗压迫的一种手段。铁凝作为文革中成长起来的女性作家,她对
随着学术网络平台上科技论文的大量发表,高效地从复杂的学术网络中找到符合用户需要的有价值的文章及其作者成为当前一项重要而困难的工作。文章首先对学术社区发现算法的研
文章以大量的文献和图片资料为基础,运用比较分析的方法,论述了景德镇瓷器在欧洲文明进程中的作用:推动了社会风俗向善、审美理念趋真,改变了人们的价值观念、行为取向、文化
国民经济水平的快速增长,推动着我国建筑业的蓬勃发展,尽管近些年来我国各大城市、乡镇的建筑如雨后春笋般拔地而起,但在此过程中也存在着一些问题影响着整体建筑水平,其中混
在新疆喀什内初班英语课堂中,由于班级学生较多,受既定的教学任务和有限的课堂教学时间的制约,加之背负升学压力,这使得部分英语教师无法顾及每个学生,久而久之,有些学生被迫