基于Scrapy的GitHub数据爬虫

来源 :电子技术与软件工程 | 被引量 : 0次 | 上传用户：yangyinxia_email

【摘要】

：

作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,

【作者】

：

赵本本殷旭东王伟

【机构】

：

常熟理工学院计算机科学与工程学院,苏州市浪潮电子信息有限公司

【出处】

：

电子技术与软件工程

【发表日期】

：

2016年06期

【关键词】

：

网络爬虫数据爬取 Scrapy GitHub Python NoSQL

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为最大的社交编程及代码托管网站,GitHub提供了丰富的数据来源。基于Python开源框架Scrapy设计实现了一个Web爬虫,能对GitHub的资源抓取和分析,并进行了结构化处理和存储,可为后续数据分析提供基础。介绍了GitHub爬虫的设计原理、算法的实现方式,对实验结果进行了分析。

其他文献

分布式文件监控系统的设计与实现

文章采用分布式计算结构设计并实现了一个文件监控系统，使用Go语言进行开发，采用了Redis开源数据库进行数据存储。该系统实现了实时监控大批量服务器上的多个目录，提高了管理大

期刊

分布式文件监控服务器Go语言

论企业财务管理中税收筹划应用的问题及对策

随着经济全球化的发展,我国企业不仅需要面临国内企业的竞争压力,还要面临国际企业的竞争压力。企业管理者为了能够提升自身的竞争实力,开始积极的进行内部管理,财务管理作为

期刊

财务管理税收筹划问题

发掘历史资源,服务群众路线教育实践活动的成功尝试

<正>在全党上下深入开展群众路红岩革命历史博物馆编纂了一本读本》。这本书有以下特点:线教育实践活动的热潮中,重庆《红岩精神与群众路线教育故事1、体现了群众路线的精髓,

期刊

群众路线教育实践活动红岩精神

江西核电产业的SWOT分析

分析了江西能源存在的主要问题,并对江西核电产业内、外部环境中的优势、劣势、机会、威胁四个因素进行了综合客观的分析评价,依此得出积极发展江西核电产业是解决江西能源问

期刊

江西核电产业内外部环境能源问题

习近平“对党忠诚”思想的三重维度解读

对党忠诚是党员、干部的政治品质与党性原则。习近平一贯强调对党忠诚,系列讲话中蕴含了丰富的对党忠诚思想。从忠诚主体定位看,对党忠诚既有对全体党员的普遍要求,也有对"关

期刊

习近平对党忠诚主体客体目标

基于消费者感知决策的外源性编码设计方法及优化

近年来,随着国内经济的迅猛增长,我国国民生活水平不断提高,人们的消费观念日益改变,我国已经进入了消费时代,消费者的购物方式也由之前的定量购买转变为了选择性购买,这种购

学位

外源性编码感知决策用户体验中控台

冠状动脉介入术后病人口服水化方法预防造影剂肾病的最佳证据总结

[目的]检索并总结冠状动脉介入术后病人采用口服水化方法预防造影剂肾病的最佳证据,为临床提供参考依据。[方法]检索PubMed、Web of Science、OVID、Cochrane Library、循证

期刊

冠状动脉介入术造影剂肾病口服水化循证护理最佳证据percutaneous coronary intervention(PCI)contrast-ind

试论黑龙江省文化产业专业人才的培养

贯彻《文化产业振兴规划》基本要求，推进黑龙江省文化产业的发展，需要培养一批文化产业的专业人才，打造一个推动文化产业发展的团队。为此，必须在遵循文化市场发展规律基础上，采取

期刊

文化产业专业人才人才培养

中国刑事简易程序的现存问题及完善意见

简易程序,通过对正规要求的刑事诉讼程序的某些环节、步骤加以不同程度的省略或简化,从而使案件得到快速处理的特别程序。中国简易程序的设置,由于多种因素的影响和制约,因而

期刊

简易程序现存问题完善意见

探究农田水利农田灌溉渠道工程的设计

农田水利工程是农业发展过程中十分重要的一部分，在实际进行操作的过程中如果能够针对农田水利农田灌溉渠道的工程进行科学的设计，对其发展是十分有利的。

期刊

农田水利灌溉渠道

基于Scrapy的GitHub数据爬虫

其他学术论文