网络爬虫的设计与实现

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:myeclipse76
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web爬虫有两种爬取策略,基于Webcrawler(web爬虫)设计的BFS(广度优先)策略,文章使用MD5算法,来进行O(1)时间复杂度的链接判重。为了避免频繁的查询DNS服务器,建立DNS缓存。另外,也因一般行为模式的考量,在中加入了IP范围控制技术,网页过滤方法,和多线程并发技术。最后,给出了此爬虫所需的时间分析,以供评估并后续发展。
其他文献
维修电工的故障排除技能是我国职业技术学校的教学重点内容,随着社会的快速发展,我们的社会竞争越来越激烈,而我们对维修电工的故障排除技能的要求也越来越高,我们应该不断地
该文简要地介绍了案例教学法的内涵,通过对案例教学法与传统教学法的比较,从四个方面阐述了如何在计算机基础教学中应用案例教学法,同时也论述了案例教学法在计算机基础教学中应
目的:探讨早期目标导向治疗(EGDT)对重度脓毒血症患者血清降钙素原(PCT)水平及预后的影响。方法重度脓毒血症患者58例随机分为EGDT组和对照组各29例。2组均积极控制感染、机械通气
本文研究亚太自由贸易区(FTAAP)的经济与环境效应,尝试从经济、贸易与环境利益综合平衡的角度为中国的FTAAP战略提出建议。量化突出了削减非关税措施(NTMs)的影响,在GTAP9数
目的探讨植入型心脏复律除颤器(ICD)、心室再同步化治疗(CRT)和心室再同步心脏复律除颤器(CRT-D)在心源性猝死高危患者中的疗效。方法选取2006年1月—2014年2月心源性猝死高危患者9
开放实验教学不仅是时间上的开放,带来的是教学和管理上的实质性改革,它不仅给学生开放了时间,也给学生提供较大的创新思维的自由空间。该文阐述了一种从选课、课前预习,课内辅导
随着汽车工业的发展和高等教育的普及,传统的汽车文化教育模式已不能满足学习者的需要,而自主学习型《汽车文化》网络课件却为他们提供了崭新的学习途径。学习内容作为课件的主
随着网络规模的扩大化与结构的复杂化,传统的集中式网络管理系统已无法满足现今网络的需要,分布式网络管理应运而生。该文着重介绍了当前分布式网络管理系统中的两类重要模型
目的观察磷酸肌酸钠对一氧化碳中毒心肌损伤的保护作用。方法选择2012年1月—2014年6月收治的一氧化碳中毒患者100例,按照随机数字表法分为观察组(50例)和对照组(50例)。对照组患
动态工作流互操作是工作流互操作领域中的一个重要问题.通过对工作流互操作进行分析,提出了一种以Web服务为服务接口、以语义网技术为服务发现机制的可以跨越Internet的动态