基于Scrapy框架的网络爬虫实现与数据抓取分析

来源 :吉林大学 | 被引量 : 0次 | 上传用户:liongliong536
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展和编程技术的普及,搜索引擎成为了人们日常生活中的必须品。搜索引擎大多使用爬虫技术作为核心模块,通过关键词返回用户查询的结果。但是网络信息呈现爆炸式的增长,使得信息的查找和定位也变得困难。针对上述问题,本文以Python和Scrapy环境为基础,以“新浪微博”为爬取对象,在学习并分析当前爬虫技术的原理、核心模块以及运行流程的基础上,探索性地实现一个基于Scrapy框架的网络爬虫,完成数据抓取等目标。首先,本文简明给出了爬虫技术的原理和发展现状,介绍爬虫工程中一些关键技术,并着重介绍了在本研究中有深刻影响的Cookie和Robot协议。其次,通过使用基于Python语言开发的Scrapy开源爬虫框架来进行爬虫开发,指出了Mongo DB为代表的No Sql数据库在元数据存储中的巨大作用。详细介绍了Scrapy开发爬虫的流程和实现细节。再次,讨论了对于爬虫设计领域的关键问题,本文实现的自定义爬虫的解决方法。采用了更换Cookie和user-agent欺骗来突破站点限制。而URL去重和多线程并发的问题,则采用并分析Scrapy自带的解决方案。最后对爬虫进行测试并展示成果,思考存在的问题和改进的可能。
其他文献
汉代女性作家留下的作品数量十分有限,但在中国古代文学发展史上具有非同寻常的意义。她们以直抒胸意的大胆表现、独特的视角、自然流畅的思想感情,以数量不多但质量颇优的文
ST8SiaⅡ(STX)和ST8SiaⅣ(PST)是两个来源于哺乳动物细胞的、具有高度同源性的多聚唾液酸酶,它们已经被克隆,基因序列也已被测定。这两个酶能催化神经细胞黏附分子(NCAM)的多
目的:探讨改良的封闭式负压引流术(VAC)治疗体表慢性溃疡创面的疗效。方法:采用改良的VAC治疗321例体表慢性溃疡患者,严格清创,根据创面的情况修剪医用海绵,将带侧孔的引流管插入
大庆油田徐深气田的大规模开发,对修井技术提出了新的要求。结合徐深气田普遍含CO2开发特征,针对故障气井腐蚀外漏、管柱落物卡阻、处理电缆桥塞、井口重建等工程问题,研究形
信托是我国金融发展的四大支柱之一,但作为一种投融资工具,长期信托需求来自于融资方,信托业在发展过程中,逐渐失去了财富管理这一最本质的特点。随着中国经济增速放缓,信托
目的探讨耳鼻喉科护理中的应用人性化护理模式的作用,分析其临床价值。方法将104例耳鼻喉疾病患者随机分为观察组和对照组各52例,观察组患者运用人性化模式予以护理,对照组患
<正>不同的企业需要不同的财务管理模式,企业集团需要建立与企业特点相适应的财务管理模式。作为一个特大型集团公司,中国石化急需构建自己的财务管理模式,这是构建中国石化
课程内容体现妇科护理岗位职业导向,重点考虑了各级医院妇产科、妇幼保健院对临床妇科护士护理工作发展的需要,同时兼顾学生将来的可持续发展。
一切为了少年儿童,为了一切少年儿童,为了少年儿童的一切。本文阐述了少先队员的小主人意识是什么,为什么要培养少先队员的小主人意识和怎样培养少先队员的小主人意识,尽心、
本文以自主建设的单参考站系统实验平台为基础,结合北京市CORS系统,采用试验与理论分析相结合的方法,对两个关键问题展开研究:网络RTK系统中定位误差影响因子;GNSS数据网络传输