基于Scrapy框架的爬虫和反爬虫研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:yakataxxxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网快速发展,信息时代早已到来,每天获取信息已经是我们日常生活必不可少的一部分。在众多信息来源中,通过浏览器进入网站获取信息是绝大多数人的选择,但如果按照这种方式正常的进行信息获取,获取信息速度较慢,量较小,由此便产生了网络爬虫。网络爬虫又称为网络蜘蛛或网络机器人,可以按照使用人定制的规则,短时间内在万维网上搜集大量特定信息。网络爬虫在爬取信息的同时,也带了一些问题,如网站信息就是价值,大量信息被非正常获取,是一种损失,同时,大量爬虫对网站维护来说也是一个巨大的负担。如何在维护网民正常访问的前提下,有效阻止这些爬虫就显得十分重要。本文主要研究Python语言开发的开源爬虫框架Scrapy所开发的爬虫,对目前网站常用的一些反爬虫手段进行分析,基于Scrapy框架以及具体网站,举例说明爬虫又是如何应对网站这些反爬措施。
其他文献
文章通过对山西地理环境的分析,结合三晋文化的特点,运用人格理论研究了山西人的人格特点。睿智、中庸、宽容、忍耐、节俭,善于经商理财、适应性强是山西人人格特征中积极的
目的:研究丹红注射液对实验性脑缺血大鼠的治疗作用,并探讨其作用机制。方法:建立自体血栓大脑中动脉闭塞局灶脑缺血模型,实验分为三组:假手术组,局灶脑缺血对照组(对照组)和
<正>近日,由中国政法大学疑难案件研究中心、西北政法大学中国城乡发展与法制研究中心联合主办的"恶意诉讼的救济途径——大亚湾案的综合思考研讨会"在桂林举行。中国政法大
小型听音室的声学设计应采用能达到一定的指标和要求并能满足人们需求而造价不高的声学设计方法。文中从小型听音室的音质要求、环境设计、混响时间、低频混响时间和音质设计
创新精神与实践能力已经成为新课程改革实验中十分现实、富有挑战性的课题。研究此问题的出发点在于继承中国基础教育的优势,弥补我国现实教育中的不足,缩小理想与现实的差距
发展冷链物流的前提是构建实施冷链所必需的基础设施建设以及采购专业设备。但是建设冷链基础设施是一个前期投资巨大的活动,这就使得冷链发展受到制约。选址不当造成的不良
交通运输系统是一个复杂的大系统,也是一个时变非线性系统。基于交通运输系统的复杂性,论文将非线性动力学理论和方法、稳定性理论与交通工程学相结合,建立了各种交通运输方
在新药的临床前安全性评价中,试验设计,尤其是在试验剂量的选择方面,毒理学研究人员,尤其是毒理评价的负责人无时无刻不面临各种挑战,需要关注与深思.以下,以应用最广泛的一
道路问题关乎党的命脉,关乎国家前途、民族命运、人民幸福。从历史变迁与伟大实践看,中国道路是适合中国国情的特色社会主义道路,最有理由自信。中国道路自信具有深厚根基:中