论文部分内容阅读
在互联网快速发展的推动下,人类生活的基本方式已经悄然发生改变。以往的物质交换方式、信息传播方式演变为新时代的“非主流”,互联网取而代之成为社会生活的必需品。新闻是生活中信息获取的最主要途径之一,随着网络的发展和应用,新闻媒体已经演变为传统媒体与网络媒体相融合的新媒体,大众获取新闻资讯的途径不断增多。网络新闻的时滞不断缩小,使得更多社会群体逐渐开始从互联网上获取新闻资讯,基于网络新闻的大数据前沿课题研究越来越热,科研领域对网络新闻数据的需求不断增多。在此背景下,论文设计实现分布式网络新闻抓取系统来抓取网络新闻数据,为相关研究提供数据支持。基于研究课题,论文介绍了网络爬虫的产生、发展和工作原理,Scrapy爬虫框架的结构和工作流程,Scrapy-Redis的组成和各组件功能,Graphite的相关概念。在深入分析网络新闻爬虫特点的基础上,根据新闻网页特点设计爬虫爬取策略和提取字段,在Scrapy框架的基础上,使用自定义下载中间件避免爬虫爬行时被网站屏蔽,运用Redis数据库部署主从结构的分布式爬虫集群,提高数据抓取效率,运用Graphite实现系统状态可视化,运用Selenium解决了动态网页数据的抓取问题。文中还设计编写了系统数据处理模块,主要包括数据清洗、编码转换、对象添加、数据分类等功能。为测试系统的性能,以腾讯网国内新闻、国际新闻、社会新闻以及军事新闻四大新闻栏目为抓取目标,运行10小时,抓取了3万余条新闻内容和数百万条评论信息。最后,本文通过三个基础数据分析实验,从新闻内容、网络媒体及用户评论三个方面分析了包括舆论热点、时间维度的新闻特征、用户浏览偏好、媒体影响力、评论用户性别特征、评论用户地区特征共六个网络新闻相关特征,从而验证了数据的客观性、准确性和数据特征的多样性。