基于Scrapy技术的数据采集系统的设计与实现

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:simeifang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网的信息极其庞大并且经常更新的情况,该文基于Scrapy爬虫框架设计并实现了优良的数据采集系统。它不仅可以根据用户自身需求获取数据,还可以对自身的采集任务进行简单的管理。介绍了系统开发的关键技术,探讨了系统框架设计、功能模块和数据库设计方案。使用Django MTV模式进行开发,底层数据采集框架使用Scrapy,一种使用Python编写实现的网站数据异步爬虫应用框架,网页解析采用xpath和python正则相结合的方法,采用jQuery树插件zTree实现了任务的树形管理,使用bootstrap实现了数据的任务名加关键字组合查询和页面效果。系统主要分为六大功能模块,网页解析模块,数据处理模块,系统登录模块,任务新建模块,任务管理模块和数据查询模块。最后分析了浏览器端和服务器端的数据交互的实现,以及网页数据定位和解析的实现。
其他文献
某自主品牌MPV通过对ET试制数据进行CAE分析确定潜在开裂点,在样车出来后进行二十四通道耐久试验验证,然后将仿真结果和试验结果进行拟合,针对开裂区域优化,最终得到的PT试制
为使双离合器自动变速器(dual clutch transmission,DCT)产品更好地匹配整车、发动机,提出DCT变速器应用匹配的原则,阐述DCT变速器的匹配过程和方法,从硬件匹配、性能匹配和
针对交通安全模糊综合评价法的主观性,改进了模糊综合评价的赋权方式。由于灰理论具有处理少量信息和数据的优势,本文采用客观性较强的灰关联赋权方式代替层次分析法赋权,然
采用旋转圆盘电极(Rotating disk electrode,RDE),通过循环伏安法(Cyclic voltammetry,CV)分析了硝酸锰浓度、硝酸浓度、硝酸铅浓度和溶液温度对PbO2和MnO2共沉积的影响规律,获得
以2015年6月阿里研究院提供的中国294个地级及以上城市的电子商务发展指数为基础,运用空间分析法和多元线性回归,从省域和城市两个层级分析电子商务发展水平的空间分布特征,
钛酸锂(Li4Ti5O12)(LTO)离子电池采用钛酸锂为负极材料,具有安全性高、循环性能高、稳定性能好等诸多优点,被认为是取代现有商用石墨/钴酸锂体系的潜在方向。本文主要综述了L
词汇是语言知识的基础目标之一。在英语教学过程中,学生抱怨最多的就是英语词汇难读、难记、难写,记住了又容易忘记。因此,加强英语词汇教学的研究,探索英语词汇教学的新方法
双边投资协定是基于两国间政府层面的旨在保护和促进双边投资的制度安排。这一协定同东道国本身的制度环境一起,对吸引对外直接投资产生了重要影响。本文基于美国上市公司200
动力电池组的荷电状态(SOC)是电动汽车能量控制的重要参数.针对串联锂电池组的SOC估计问题,建立电池组的Vmin状态空间模型,电池组内单体电池负载电压的最小值Vmin和电池组的S
目的建立运用超高效液相色谱-串联四极杆质谱联用技术同时测定西洋参花蕾中4种皂苷类成分(人参皂苷Re、拟人参皂苷F11、人参皂苷Rb3、人参皂苷Rd)含量的分析方法。方法采用Wa