基于Scrapy的分布式网络新闻抓取系统设计

来源 :现代科学仪器 | 被引量 : 0次 | 上传用户：apple41900

【摘要】

：

针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统

【作者】

：

翟峰

【机构】

：

西安欧亚学院

【出处】

：

现代科学仪器

【发表日期】

：

2019年1期

【关键词】

：

Scrapy框架分布式网络爬虫网络新闻抓取系统 Scrapy frameworkdistributed network crawlernetwork new

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统利用Scrapy框架结合Redis技术对传统的网络爬虫框架进行改进,使改进后的爬虫抓取的数据信息可存储在MongoDB数据库内,以便对数据库直接新闻数据信息的有效处理分析。经过实际应用测试,证明基于Scrapy框架的网络新闻抓取系统相较于传统单机系统具有更高的效率。

其他文献

文学地理景观的古今之别

文学地理景观的描写在古今作家笔下是有所区别的。只有现代人的确立,才能发现现代之风景。不管是巴尔扎克代表的现实主义作家笔下的风景,还是卢梭代表的浪漫主义作家笔下的风

期刊

文学地理景观现代风景现代人主体性Literary landscapesmodern landscapesmodern peoplesubjectivit

UC向腾讯宣战

腾讯养活了不少就业岗位。垄断有时候更有宏观调控的力度，就像天朝。但是垄断也终结了走多好，走多远。再说

期刊

UC腾讯QQ浏览器合作伙伴群发

高中历史课堂教学评价体系建构之我见

<正>高中历史课堂教学引入科学评价体系,利用辩证唯物主义观点,总结课堂教学规律性认识,为课堂教学带来重要的促进作用。课堂教学评价属于教学反思范畴,教师要树立正确评价观

期刊