基于Scrapy的分布式网络新闻抓取系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:gir1s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网快速发展的推动下,人类生活的基本方式已经悄然发生改变。以往的物质交换方式、信息传播方式演变为新时代的“非主流”,互联网取而代之成为社会生活的必需品。新闻是生活中信息获取的最主要途径之一,随着网络的发展和应用,新闻媒体已经演变为传统媒体与网络媒体相融合的新媒体,大众获取新闻资讯的途径不断增多。网络新闻的时滞不断缩小,使得更多社会群体逐渐开始从互联网上获取新闻资讯,基于网络新闻的大数据前沿课题研究越来越热,科研领域对网络新闻数据的需求不断增多。在此背景下,论文设计实现分布式网络新闻抓取系统来抓取网络新闻数据,为相关研究提供数据支持。基于研究课题,论文介绍了网络爬虫的产生、发展和工作原理,Scrapy爬虫框架的结构和工作流程,Scrapy-Redis的组成和各组件功能,Graphite的相关概念。在深入分析网络新闻爬虫特点的基础上,根据新闻网页特点设计爬虫爬取策略和提取字段,在Scrapy框架的基础上,使用自定义下载中间件避免爬虫爬行时被网站屏蔽,运用Redis数据库部署主从结构的分布式爬虫集群,提高数据抓取效率,运用Graphite实现系统状态可视化,运用Selenium解决了动态网页数据的抓取问题。文中还设计编写了系统数据处理模块,主要包括数据清洗、编码转换、对象添加、数据分类等功能。为测试系统的性能,以腾讯网国内新闻、国际新闻、社会新闻以及军事新闻四大新闻栏目为抓取目标,运行10小时,抓取了3万余条新闻内容和数百万条评论信息。最后,本文通过三个基础数据分析实验,从新闻内容、网络媒体及用户评论三个方面分析了包括舆论热点、时间维度的新闻特征、用户浏览偏好、媒体影响力、评论用户性别特征、评论用户地区特征共六个网络新闻相关特征,从而验证了数据的客观性、准确性和数据特征的多样性。
其他文献
本文介绍了作者在疑问代码和不良习惯检测方面所做的工作,包括疑问代码模式收集、分析和检测,并对疑问代码中一类重要模式--重复代码模式提出和实现了一种参数化非连续重复代码
随着3G网络技术的发展和高效视频压缩技术(MPEG-4、H.264以及AVS等)的出现,使得原本带宽受限的无线流媒体应用成为可能。移动流媒体选播系统就是一种无线环境下的交互式流媒
增强现实可以将虚拟的物体合并到现实场景中,并能支持用户与其进行交互,它已经成为虚拟现实研究中的一个重要领域。基于摄像头投影仪的互动投影系统是增强现实的一个重要应用
随着互联网的快速发展,它上面聚集了大量的空闲资源,同时计算机技术的发展使得某些应用需要使用大量的资源,人们对计算机资源的需求和互联上大量资源闲置的矛盾越来越突出,在
随着计算机技术、通信技术和微电子技术的进步,IT技术取得了迅猛的发展。计算机控制技术在交通领域的应用越来越广泛。由于计算机网络的普及无线通信技术的发展,促使计算机和通
无线传感器网络集中了微机电技术、感知技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,孕育出一种全新的信息获取和处理模式。布局和覆盖、节点定位、网络通信协
为了提高资源利用率,减少重复内存占用,多租户云平台中引入了各种形式的内存共享机制。在该机制的作用下,不同虚拟机之间内容相同的内存页在物理内存中以同一个COW(Copy-On-W
JavaEE是一种利用Java 2平台来简化企业解决方案的开发、部署和管理相关的复杂问题的体系结构。基于JavaEE的Web项目开发具有开发过程规范化,开发架构模块化、跨平台、易于扩
本文从介绍入侵检测的基本概念入手,分析现有IDS模型与IDS产品中的常用入侵检测方法,发现这些方法均存在不足,使得IDS产品难以满足IDS所需要的实时性、适应性、准确性和自学习能
三维物体识别是计算机视觉重要分支之一。现有的三维物体识别技术主要是一个利用输入的场景图像数据得到场景特征的表达,再和数据库中存储的物体模型表达相匹配的过程,需要解