【摘 要】
:
搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原始信息唯一来源。本文围绕着
论文部分内容阅读
搜索引擎是从互联网上快速而有效地获取信息资源的捷径。爬行器是搜索引擎的重要组成部分,它在搜索引擎中负责网络信息采集,是搜索引擎数据库中原始信息唯一来源。本文围绕着网络搜索这一前沿技术,深入研究了爬行器的工作原理和相关技术,并在这些研究工作的基础之上设计实现了一个高性能并行爬行器ChaoCrawler。本文的研究内容主要包括:分析并行爬行器现有的实现技术,包括系统框架,任务分配算法,系统内部通信方式和协作方式。以主从结构为基本模型,阐述了基于NFS的并行爬行器系统架构,协作机制,以及在此机制下并行爬行器的数据处理流程和数据并发访问的处理方法。针对并行爬行器所遇到的实际问题,实现了三种优化策略:冲突规避,URL索引和DNS缓冲。冲突规避算法将URL散列和站点名散列相结合,应用多线程技术,在实现了负载平衡同时,又避免了并行爬行器的并发冲突。URL索引采用了索引散列值的方法,基于Berkeley DB实现了Hash和B+树两种URL索引库,满足了爬行器快速查找URL的需要,为其正常运行提供了保障。DNS缓冲通过客户机缓冲的方式,采用全缓冲策略,解决了域名解析的瓶颈,提高了并行爬行器的运行效率。最后,设计实现了实验原型系统ChaoCrawler。通过在互联网上进行实验,检验了并行爬行器ChaoCrawler的运行效果,并由此验证了其系统架构和三种优化策略的有效性。
其他文献
近年来,随着移动互联网和电子商务的迅猛发展,网上购物已经成为人们日常生活中的重要组成部分。在实际应用场景中,当用户购买某件衣服时,电商平台往往会自动推荐与其搭配的衣服。
未来的无线个人通信服务PCN(Personal Communication Network)将支持更高密度,更高移动性的用户,并支持采用不同接入网与核心网的用户进行网间漫游。这将会产生巨量的系统资
随着Internet技术的应用和发展,传统GIS正向着网络化GIS方向发展,WEBGIS是GIS技术与Internet技术的有机结合,它使GIS的应用渗透到了国民经济的各个领域,已经成为一种大众化的
油库管理信息系统是利用计算机软硬件技术等现代化手段,对油库重要设备数据实现自动化监控管理,对油库所属部门的日常工作进行综合管理,对在油库正常运转过程中产生的数据进
移动通信技术的高速发展和传统互联网技术的融合为移动电子商务的实现奠定了硬件技术基础,J2ME技术是当前业界流行的无线应用开发支柱平台,它主要针对资源受限设备进行应用程序
随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然互联网上有很多搜
随着我国经济建设的蓬勃发展,有效的城市道路交通管理在人们的经济、社会活动中的重要性日益显著。因此深入研究解决城市交通问题有着极为重要的现实意义。另一方面,随着计算
数据库的性能自调优一直是十分重要的一个研究课题。近年来日益受到国际学术界的重视,已经在硬件调优、数据库模式调优、应用程序调优、数据库管理系统参数调优等许多领域得
随着虚拟现实与计算机图形技术的飞速发展,利用计算机对自然界中植物的模拟已成为目前一个重要的研究课题,同时也受到了越来越多研究人员的关注。由于植物的生长是一个新陈代谢
传统的客户机/服务器(Client/Server)体系结构流行已久,曾经是一种成功的企业应用解决方案。但自20世纪90年代以来,随着近年来Internet的迅猛发展以及Internet技术的广泛发展