论文部分内容阅读
当前伴随着社会繁荣发展与大数据科学技术的飞跃式发展,现代互联网技术与移动端技术发展也是呈现出今非昔比的景象,目前人们在生活和工作中对移动互联网中的信息需求也是越来越多,当下搜索引擎技术重要性也越来越更加明显。移动互联网信息在社会的各个方面都有非常多的应用,现代搜索引擎技术己经深入人们的心中,也融入到了人们的日常生活中,它对人们的日常生活的影响也越来越多,网络搜索引擎中非常重要的一个技术就是网络爬虫。对于以往的单机爬虫在性能上已经难以满足发展日新月异的呈现爆炸式增长的互联网数据,为了解决这种窘迫的情况就诞生了新一代的网络爬虫,其就是基于分布式的网络爬虫。详细的来说就是在诸多的电脑上搭建分布式集群系统与诸多电脑集群高效的分工合作,把爬虫部署在这个集群上就可以提升爬虫的抓取数据效率,使之满足了抓取巨量数据的需求。目前运用了分布式存储系统,对整个爬虫系统数据存储的能力也能大大提升了。针对分布式系统的优势特点本文在Hadoop环境下设计并实现了分布式网络爬虫系统,开始详细的分析叙述了什么才是分布式系统与什么才是网络爬虫,并在这各基础上实现了这个分布式的网络爬虫系统,此系统有望去缓解传统网络爬虫抓取速度慢和效率低等情况。此次文中的主要的内容是:(1)在本文中首先介绍了网络搜索引擎技术,分布式网络爬虫的关键技术以及工作的原理,分析了分布式网络爬虫系统的整体架构设计,然后详细分析了爬虫的URL功能模块、爬虫的网页抓取功能模块、爬虫的网页解析功能模块、爬虫的数据存储功能模块等原理,并通过MapReduce实现了各个功能模块。(2)在传统的网络爬虫中网页抓取功能是影响系统工作效率的重要原因,所以就针对这一功能模块深入学习,仔细分析并对URL链接的权重算法进行优化。影响系统效率的另外一点就是URL链接的去重功能,为了避免大量的重复工作就对URL链接队列去重算法进行优化,通过这两点的改进,与望去解决网络爬虫系统的抓取速度慢和效率低的情况,以提升网络爬虫的抓取速度和精确度。(3)在系统代码编写完功能实现之后,在实验电脑机器上搭建Hadoop分布式系统,并配置相关的环境与节点和IP地址,然后在实验电脑上测试爬虫系统的各个功能模块并针对URL链接权重算法进行测试和记录分析、对URL链接去重算法进行测试和记录分析,最后进行总结归纳数据信息进行比较分析。本文的主要意义在于设计与实现了分布式网络爬虫系统,其在一定的程度上解决了传统单机网络爬虫速度慢、效率低、可扩展性差的问题,提升了网络爬虫抓取信息、网页抓取数据的速度和效率。