论文部分内容阅读
针对传统单机网络爬虫无法从互联网上实时抓取有效信息的问题,文章利用信息采集速率较快且规模较大的分布式网络爬虫设计了基于Scrapy的分布式网络新闻爬虫抓取系统。该系统利用Scrapy框架结合Redis技术对传统的网络爬虫框架进行改进,使改进后的爬虫抓取的数据信息可存储在MongoDB数据库内,以便对数据库直接新闻数据信息的有效处理分析。经过实际应用测试,证明基于Scrapy框架的网络新闻抓取系统相较于传统单机系统具有更高的效率。