论文部分内容阅读
互联网和信息技术的空前发展,加速了人类活动信息的产生,互联网信息总量急剧增加,人们对信息的获取和处理的需求不断提升,需要更加智能化和定制化的网络爬虫,以满足不断增长的网络信息获取和处理需求。如何从浩瀚的信息海洋中方便、快速并准确地获取信息,是网络爬虫研究所要解决的关键问题。当前,无论在学术界还是工业界,针对网络爬虫的研究一直都处于非常活跃的状态。 论文针对学术领域的大规模数据爬取、处理和存储需求,提出并实现了一种定向分布式网络爬虫框架。开发者可基于此框架,针对不同的目标数据特征,方便、快速且准确地实现爬虫定制功能,高性能地完成数据的分布式抓取和存储。 论文的主要工作包括如下几个方面: 1、提出了一种定向分布式网络爬虫框架。论文采用模块化设计思想和主从模式的分布式架构,借鉴传统网络爬虫的特点,提出了一种定向分布式网络爬虫框架,并引入了分布式爬虫框架监控机制。 2、提出了针对网络爬虫特点的爬虫种子URL二级去重算法。通过借鉴种子去重算法,结合分布式系统的特点,设计了一种定向分布式网络爬虫二级去重算法,可在分布式系统环境下,快速实现网络爬虫的去重功能,不仅降低了爬虫开发的门槛,同时很大程度上缩短了爬虫开发和数据抓取的时间。 3、对定向分布式网络爬虫框架进行实际应用。系统基于开源软件,对定向分布式网络爬虫框架的各模块进行了实现,并应用于定向抽取万方数据知识服务平台和中国科学院大学新闻网,对系统的分布式爬取性能和效果进行了测试和评价,达到预期效果。系统已累计处理并保存数据近千万条。 本文研究的定向分布式网络爬虫框架基本满足了最初的设计需求,但是在增量抓取、Ajax方式获取数据等方面还有较大空间,后续将在这几方面做进一步的研究。