一种定向分布式网络爬虫框架研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qwert730202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网和信息技术的空前发展,加速了人类活动信息的产生,互联网信息总量急剧增加,人们对信息的获取和处理的需求不断提升,需要更加智能化和定制化的网络爬虫,以满足不断增长的网络信息获取和处理需求。如何从浩瀚的信息海洋中方便、快速并准确地获取信息,是网络爬虫研究所要解决的关键问题。当前,无论在学术界还是工业界,针对网络爬虫的研究一直都处于非常活跃的状态。  论文针对学术领域的大规模数据爬取、处理和存储需求,提出并实现了一种定向分布式网络爬虫框架。开发者可基于此框架,针对不同的目标数据特征,方便、快速且准确地实现爬虫定制功能,高性能地完成数据的分布式抓取和存储。  论文的主要工作包括如下几个方面:  1、提出了一种定向分布式网络爬虫框架。论文采用模块化设计思想和主从模式的分布式架构,借鉴传统网络爬虫的特点,提出了一种定向分布式网络爬虫框架,并引入了分布式爬虫框架监控机制。  2、提出了针对网络爬虫特点的爬虫种子URL二级去重算法。通过借鉴种子去重算法,结合分布式系统的特点,设计了一种定向分布式网络爬虫二级去重算法,可在分布式系统环境下,快速实现网络爬虫的去重功能,不仅降低了爬虫开发的门槛,同时很大程度上缩短了爬虫开发和数据抓取的时间。  3、对定向分布式网络爬虫框架进行实际应用。系统基于开源软件,对定向分布式网络爬虫框架的各模块进行了实现,并应用于定向抽取万方数据知识服务平台和中国科学院大学新闻网,对系统的分布式爬取性能和效果进行了测试和评价,达到预期效果。系统已累计处理并保存数据近千万条。  本文研究的定向分布式网络爬虫框架基本满足了最初的设计需求,但是在增量抓取、Ajax方式获取数据等方面还有较大空间,后续将在这几方面做进一步的研究。
其他文献
由于信息技术的发展和日趋激烈的商业竞争,人们不再满足于独立、零散的办公自动化和计算机应用,而是需要综合的、集成化的解决方案。作为一种对常规性事务进行管理、集成的技术
随着社交网络和问答网站的兴起,短文本已成为网络上信息传递的主要方式,例如传统网页的标题、各类新闻和博客的标题等都是短文本形式的。同时,微博、知乎、Twitter、Facebook
本文以一个实际的安全操作系统CAS—Earth中的自主访问控制机制的开发实践为基础,针对相关安全系统评测标准对自主访问控制机制的要求,提出并实现了一种增强的自主访问控制机制
情报出版主要应用在商业印刷中的商品流通领域。随着自动化排版的日益发展,用户对于自动化排版系统的要求也愈来愈高,情报出版中使用的后台数据源通常是一个专用的排版数据库,排
随着Internet的快速发展,传统的电子商务流程面临着新的挑战。软件Agent的出现,提供了一种新的网络计算模式,在解决电子商务这样的大型分布式系统问题上具有适应性和优势。目前
近年来,计算机系统的功耗问题越来越受关注。高效的能量利用能延长移动设备电池的使用时间,降低个人计算机和服务器的使用成本,减小对环境的影响。在计算机系统的部件中,磁盘的功
本文主要讨论了一种全新的互联网络资源寻址定位技术——Handle服务器系统的研究与实现。作者介绍了Handle协议的基本理论,分析了Handle系统的特点,以及在实现上的必要性和可行
包装辅助设计是一个方兴未艾的产业,纸盒包装又是包装业的重中之重,而在包装辅助设计中,包装效果的三维仿真是一个包装辅助设计软件不可缺少的重要组成部分,其质量的好坏直接影响
在计算机网络世界中,无线网络起到了越来越重要的重要,移动手机GSM网络已经在全世界广泛部署,无线局域网络在IEEE802.11系列标准的推动下也越来越完善,本文介绍了一种新型的无线
传感器网络(SensorNetworks)综合了传感器技术、嵌入式计算技术、无线通信技术和分布式信息处理技术,能够协作地实时监测、感知和采集各种环境或监测对象的信息并对其进行处理