分布式网络爬虫系统设计与实现

来源 :沈阳理工大学 | 被引量 : 3次 | 上传用户：zdjige

【摘要】

：

【作者】

：

洪伟

【出处】

：

沈阳理工大学

【发表日期】

：

2020年01期

【关键词】

：

网络搜索引擎分布式网络爬虫 Hadoop MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前伴随着社会繁荣发展与大数据科学技术的飞跃式发展,现代互联网技术与移动端技术发展也是呈现出今非昔比的景象,目前人们在生活和工作中对移动互联网中的信息需求也是越来越多,当下搜索引擎技术重要性也越来越更加明显。移动互联网信息在社会的各个方面都有非常多的应用,现代搜索引擎技术己经深入人们的心中,也融入到了人们的日常生活中,它对人们的日常生活的影响也越来越多,网络搜索引擎中非常重要的一个技术就是网络爬虫。对于以往的单机爬虫在性能上已经难以满足发展日新月异的呈现爆炸式增长的互联网数据,为了解决这种窘迫的情况就诞生了新一代的网络爬虫,其就是基于分布式的网络爬虫。详细的来说就是在诸多的电脑上搭建分布式集群系统与诸多电脑集群高效的分工合作,把爬虫部署在这个集群上就可以提升爬虫的抓取数据效率,使之满足了抓取巨量数据的需求。目前运用了分布式存储系统,对整个爬虫系统数据存储的能力也能大大提升了。针对分布式系统的优势特点本文在Hadoop环境下设计并实现了分布式网络爬虫系统,开始详细的分析叙述了什么才是分布式系统与什么才是网络爬虫,并在这各基础上实现了这个分布式的网络爬虫系统,此系统有望去缓解传统网络爬虫抓取速度慢和效率低等情况。此次文中的主要的内容是:(1)在本文中首先介绍了网络搜索引擎技术,分布式网络爬虫的关键技术以及工作的原理,分析了分布式网络爬虫系统的整体架构设计,然后详细分析了爬虫的URL功能模块、爬虫的网页抓取功能模块、爬虫的网页解析功能模块、爬虫的数据存储功能模块等原理,并通过MapReduce实现了各个功能模块。(2)在传统的网络爬虫中网页抓取功能是影响系统工作效率的重要原因,所以就针对这一功能模块深入学习,仔细分析并对URL链接的权重算法进行优化。影响系统效率的另外一点就是URL链接的去重功能,为了避免大量的重复工作就对URL链接队列去重算法进行优化,通过这两点的改进,与望去解决网络爬虫系统的抓取速度慢和效率低的情况,以提升网络爬虫的抓取速度和精确度。(3)在系统代码编写完功能实现之后,在实验电脑机器上搭建Hadoop分布式系统,并配置相关的环境与节点和IP地址,然后在实验电脑上测试爬虫系统的各个功能模块并针对URL链接权重算法进行测试和记录分析、对URL链接去重算法进行测试和记录分析,最后进行总结归纳数据信息进行比较分析。本文的主要意义在于设计与实现了分布式网络爬虫系统,其在一定的程度上解决了传统单机网络爬虫速度慢、效率低、可扩展性差的问题,提升了网络爬虫抓取信息、网页抓取数据的速度和效率。

其他文献

谁在重走胡雪岩的老路

胡雪岩作为中国近现代著名的企业家为国内不少企业领导所称赞。胡雪岩也有另外一个外号：红顶商人。万科董事长王石曾指出，胡雪岩的生意头脑是不容置疑的，处世之道更令人称奇，但胡

期刊

胡雪岩中国近现代企业领导红顶商人处世之道企业家董事长

创造性地推进银证合作的发展

银证合作是金融业持续发展的需要来自国外混业经营的挑战和启示银证合作有多种形式和层次，也就是说商业银行和证券公司可以在多个层面上合作。银证合作的最高形式无疑是银证混

期刊

银证合作世界金融业混业经营持续发展证券公司商业银行国际范围分立

胶辊式砻谷的冲击振动隔离技术研究

鲜米机作为城市社区中新兴的自助式碾米设备,相比传统稻米加工设备的运用场景更加接近终端消费者,因此,对鲜米机的声、振品质有着比传统稻米加工设备更高的需求和标准,对其振

学位

隔振技术冲击隔离多连杆隔冲器胶辊式砻谷

图像学视角下的尤恩·乌格罗绘画艺术研究

二十世纪,现代艺术在西方画坛盛行,多元化的艺术形式颠覆了文艺复兴时期对透视学、解剖学和明暗法建立起来的艺术法则,绘画中的“形”面临着被消解的命运;再者,摄影术造成了图像发达、绘画贬值的局面,以至于出现与“绘画死亡”相关的言论。事实上,架上绘画从未死亡。八十年代,英国兴起的新具象绘画便是对这些言论最有力的回击。尤恩·乌格罗(Euan·Uglow,1932-2000)是英国当代画坛公认的大师之一,他在

学位

尤恩·乌格罗图像学绘画情感阐释

基于单目视觉的光学元件分拣系统研究

针对传统人工分拣过程不仅效率低、工作环境危险,且可能造成精密工件二次污染,提出基于机器视觉的机器人控制技术来进行工件分拣。面向视觉分拣系统的位置精度与效率问题展开

学位

H形并联机器人视觉分拣系统运动学标定图像处理技术路径规划

银修饰钒酸铋的制备及其催化性能研究

将低温水热法制备的单斜晶型BiVO4作为载体,采用光还原法获得催化活性提升的Ag/BiVO4复合材料。通过X射线衍射（XRD）、X射线能谱（EDX）、紫外可见漫反射（UV-DRS）表征方法检测Ag/BiVO4

期刊

银/钒酸铋光还原法光催化罗丹明BAg/BiVO4photo-reductionphotocatalyticrhodamine B

当前中国经济是否已经过热

今年上半年，国内生产总值增长达到11．5％，刨下11年来新高，而居民消费价格总水平同比上涨3．2％，尤其是6月份当月上涨了4．4％，7月份更是进一步上涨了5．6％（1-7月份平均上涨3．5％），让人产生不少惊恐。再

期刊

中国经济居民消费价格总水平国内生产总值外贸增长上涨投资加息央行

β-肾上腺素受体介导运动训练对老年大鼠心脏缺血预处理效应的影响

目的探讨运动训练能否恢复老年大鼠心脏缺血预处理（IP）效应及β-肾上腺素受体（β-AR）的可能作用机制。方法健康雄性SD成年或老年大鼠,实验分组：成年对照组、老年对照组和老年运动

期刊

运动训练缺血预处理Β-肾上腺素受体

青海省海东地区干旱灾害风险区划

干旱灾害是世界上危害最为严重的灾害之一,其出现的次数、持续的时间、影响的范围、造成的损失,居各种自然灾害之首。据统计,每年因干旱造成的全球经济损失高达60×10~8～80×1

学位

海东地区干旱灾害风险区划

六亚甲基二异氰酸酯合成工艺研究

以1,6-己二胺、光气为反应原料，芳香族异氰酸酯为催化剂，合成六亚甲基二异氰酸酯。考察投料比、催化剂、反应温度、反应时间等因素对六亚甲基二异氰酸酯的影响：结果表明，最佳反应

期刊

16-己二胺光气催化剂六亚甲基二异氰酸酯16-hexamethylenediamine： phosgene catalyst hexamethyle

分布式网络爬虫系统设计与实现

与本文相关的学术论文