论文部分内容阅读
随着科学技术的逐渐成熟与发展,社会舆情的传播途径已经逐渐从传统媒体平台转向了互联网平台,互联网已经逐渐成为人民大众生活的一部分,人民大众对互联网平台的依赖程度越来越高,并且互联网的用户群体遍至各个年龄。互联网的广泛应用让我们可以随时及时地了解世界范围内发生的事件,并立即发表评论。因此,目前我们需要对互联网平台上的舆情情况进行有效监管,对恶意传播的信息及言论,及时清除,防止对社会产生不良的影响。互联网舆情分析的关键技术点就是对网页中的信息爬取,如何高效准确的爬取到页面中的信息、,为互联网舆情的分析提供更加有效的信息源,是本文研究的重点。传统的网络爬虫程序是将页面的URL地址收集并形成一个URL地址队列,爬虫程序依据一定得爬取策略依次对URL队列中的地址进行爬取,并对爬取下来的页面信息进行分析,从而完成网络舆情分析的工作任务。然而,在Web2.0的时代,站点页面中出现了越来越多的动态页面,这些动态页面中的代码执行会改变页面的信息以及结构,但并不改变页面的URL地址,一些重要的信息要通过用户交互之后才会出现在页面中,因此,需要对传统的网络爬取程序作出一些优化和改进,用以适用爬取动态页面信息。通过对动态页面信息特点的分析以及爬取策略的研究,本论文主要工作有:1)对舆情系统信息采集技术相关知识进行了分析研究。网络爬虫程序是舆情系统信息采集中的关键技术,而Ajax技术在动态页面展示中有着广泛的应用,因此,为研究动态页面信息采集技术,本文对这两个技术原理进行了详细分析研究。2)对信息采集模块所要满足的功能进行了需求分析,并完成模块总体设计。通过对本次课题所要满足的功能点进行分析,本文对信息采集模块的整体流程进行设计,并对模块关键接口进行了设计。3)对信息采集模块进行了详细单元设计。将模块细分为4个主要的功能单元分别是页面获取单元、Ajax代码检测单元、Ajax代码解析单元以及DOM合并干扰过滤单元。并对每个单元进行了详细流程设计。4)对信息采集模块进行了实验测试以及功能实现。通过抓取动态页面信息反馈实验,对模块抓取功能进行测试,并对信息采集模块功能进行实现并做模块功能展示。本文通过上述工作,满足了动态页面信息采集的功能需求,并对动态页面信息采集的相关性进行了提升。