基于Hadoop的分布式网络爬虫研究

来源 :电子科技大学 | 被引量 : 10次 | 上传用户:hualanfengyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,Web上的网页信息迅猛增长,面对互联网上错综复杂、规模巨大的海量信息时,单机网络爬虫由于计算能力和存储空间的局限性,使得抓取和处理海量数据变得十分困难。而由Apache基金会研发的Hadoop分布式计算平台在处理和存储海量数据有着高可用性、高伸缩性、高扩展性的特点,使Hadoop技术迅速成为了海量数据处理领域的热门首选。将网络爬虫技术与Hadoop分布式计算平台结合组成的分布式网络爬虫有效解决了海量网页数据的抓取、存储和分析的问题。因此基于Hadoop的分布式网络爬虫具有十分重要的研究价值和意义。本文对网络爬虫中的两个算法:链接分析算法和URL去重算法进行了研究与分析,并针对算法在Hadoop环境下的不足进行了改进优化。在网络爬虫抓取网页后,需要对抓取下来的网页进行重要性的分析,PageRank算法是Google用于标识网页的重要性的一种方法,而在大数据环境下,基于Hadoop的PageRank算法中每个URL的出链接都会作为MapReduce中间结果输出,使得Map函数输出文件很大,而这些结果文件需要通过网络传输到Reduce端,过多的时间消耗在网络传输上,造成算法的计算效率低。针对这一问题,本文第四章对基于Hadoop的PageRank算法进行了改进,根据URL链接形成的Web图的特点,对Web图进行分割,划分为URL子图,将子图内与子图之间PageRank的部分合并计算转移到Map阶段,减少了Map函数输出文件大小,从而降低了MapReduce的中间网络传输时间,提高了算法效率。URL去重算法同样也是网络爬虫中的一个重要算法,URL去重算法在爬虫新抓取的URL加入待抓取队列之前,过滤已经抓取过的重复URL,使得网络爬虫的性能得到提高。本文重点研究了布隆过滤器去重算法,BloomFilter的占用的空间与元素本身无关,有较高的空间效率,插入和查询操作的时间复杂度也较低,且过滤器中位数组也适合并行实现;但随着元素的添加,过滤器的误判率也随之增加,将许多无重复的URL过滤,对爬虫性能造成影响。针对这一问题,本文第五章对标准过滤器进行改进,提出动态主从布隆过滤器结构的改进算法,只有当两个过滤器都造成误判率的情况下才判定过滤器为误判,并且当元素增加时,动态增加过滤器个数,延缓误判率的增长速率。并实现了基于Hadoop的BloomFilter算法和改进算法,降低了过滤器的误判率。
其他文献
宋代四川是四川历史上封建经济高度发达的黄金时期,其发达的经济培育了典型的封建市场。本文试图从三个方面来探析宋代四川市场一、市场类型;二、市场等级体系与市场网络;三
伴随我国经济的整体快速发展,电力企业的自身规模正在不断扩大,发展速度也出现了明显的加快。在我国社会主义市场经济体制的不断发展背景之下,电力企业所面临的挑战更为严峻,
目前,我们国家的电力企业还是有很多都是在依靠政府的方针政策和扶持生存的,但是随着社会的发展和进步,这种纯粹的依赖已经无法满足其政工工作的需求了。相关的电力企业必须
霍桑的人物性格塑造极具特色。《红字》中,霍桑用隽永的文字向我们展现了4位中心人物,他们各具特点,紧紧围绕小说的主题慢慢展现在读者面前。海丝特的勇敢,迪明斯代尔的懦弱,
“出走”行为是人类生存的一种基本状态和精神欲求,对社会发展产生了重要影响。女性往往将“出走”作为争取权利反抗压迫的一种手段。铁凝作为文革中成长起来的女性作家,她对
随着学术网络平台上科技论文的大量发表,高效地从复杂的学术网络中找到符合用户需要的有价值的文章及其作者成为当前一项重要而困难的工作。文章首先对学术社区发现算法的研
文章以大量的文献和图片资料为基础,运用比较分析的方法,论述了景德镇瓷器在欧洲文明进程中的作用:推动了社会风俗向善、审美理念趋真,改变了人们的价值观念、行为取向、文化
国民经济水平的快速增长,推动着我国建筑业的蓬勃发展,尽管近些年来我国各大城市、乡镇的建筑如雨后春笋般拔地而起,但在此过程中也存在着一些问题影响着整体建筑水平,其中混
在新疆喀什内初班英语课堂中,由于班级学生较多,受既定的教学任务和有限的课堂教学时间的制约,加之背负升学压力,这使得部分英语教师无法顾及每个学生,久而久之,有些学生被迫
互联网和信息技术的快速发展推动了大众对数据的生产和消费,信息为数据披上了外衣,人们进入了一个网络密布、数据激增的时代。在这个信息化时代,Web网页呈现出几何数量级增长