互联网舆情分析中信息采集技术的研究与设计

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:cpingpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的逐渐成熟与发展,社会舆情的传播途径已经逐渐从传统媒体平台转向了互联网平台,互联网已经逐渐成为人民大众生活的一部分,人民大众对互联网平台的依赖程度越来越高,并且互联网的用户群体遍至各个年龄。互联网的广泛应用让我们可以随时及时地了解世界范围内发生的事件,并立即发表评论。因此,目前我们需要对互联网平台上的舆情情况进行有效监管,对恶意传播的信息及言论,及时清除,防止对社会产生不良的影响。互联网舆情分析的关键技术点就是对网页中的信息爬取,如何高效准确的爬取到页面中的信息、,为互联网舆情的分析提供更加有效的信息源,是本文研究的重点。传统的网络爬虫程序是将页面的URL地址收集并形成一个URL地址队列,爬虫程序依据一定得爬取策略依次对URL队列中的地址进行爬取,并对爬取下来的页面信息进行分析,从而完成网络舆情分析的工作任务。然而,在Web2.0的时代,站点页面中出现了越来越多的动态页面,这些动态页面中的代码执行会改变页面的信息以及结构,但并不改变页面的URL地址,一些重要的信息要通过用户交互之后才会出现在页面中,因此,需要对传统的网络爬取程序作出一些优化和改进,用以适用爬取动态页面信息。通过对动态页面信息特点的分析以及爬取策略的研究,本论文主要工作有:1)对舆情系统信息采集技术相关知识进行了分析研究。网络爬虫程序是舆情系统信息采集中的关键技术,而Ajax技术在动态页面展示中有着广泛的应用,因此,为研究动态页面信息采集技术,本文对这两个技术原理进行了详细分析研究。2)对信息采集模块所要满足的功能进行了需求分析,并完成模块总体设计。通过对本次课题所要满足的功能点进行分析,本文对信息采集模块的整体流程进行设计,并对模块关键接口进行了设计。3)对信息采集模块进行了详细单元设计。将模块细分为4个主要的功能单元分别是页面获取单元、Ajax代码检测单元、Ajax代码解析单元以及DOM合并干扰过滤单元。并对每个单元进行了详细流程设计。4)对信息采集模块进行了实验测试以及功能实现。通过抓取动态页面信息反馈实验,对模块抓取功能进行测试,并对信息采集模块功能进行实现并做模块功能展示。本文通过上述工作,满足了动态页面信息采集的功能需求,并对动态页面信息采集的相关性进行了提升。
其他文献
中国电影市场在2014年~2015年间经历了爆发式增长后又进入了业界所谓的市场"寒冬",外部监管环境严格,一二线城市影院数量趋于饱和,市场竞争激烈;人口红利消退,观影群众消费趋
《六韬》又称《太公六韬》《太公兵法》,是古代军事思想的鼻祖之作。其内容博大精深,逻辑缜密严谨,对现代企业管理有很大借鉴价值。1.以人为本,天下归心。《六韬》中《文韬》
新型冠状病毒肺炎疫情已经全球大流行,东亚、北美、欧盟三大经济圈作为主要的国际贸易地区,疫情非常严重,对国际贸易的顺利展开造成了极大的冲击,部分商品处在停滞状态,对国
识人、选人是领导的主要职责之一,运用辩证思维选拔人才,体现着领导者的智慧和能力。伯乐相马与公开赛马"伯乐相马论"是传统的选人观,把领导的主观认识作为判断人才的标准,凭
民营企业如何进行事业交班,创二代上位后如何经营企业,一直是大家关注的话题,也是令部分民企感到困惑的问题。为此,本刊记者采访了知名民营企业的创二代——稻花香集团董事长
蔚为壮观、讳莫如深的中国古代文学借助电视这一现代传播媒介迅速大众化、普及化和简易化。从《封神演义》小说原典到再创作的电视剧,彰显了文学与媒介之间错综复杂的关系。
中小企业在我国经济和社会的发展中起着越来越大的作用,并其分布在各行各业中,大多数都是民营企业,中小企业的融资难和融资成本高等融资问题一直是限制我国经济发展的一大问
有企业高层抱怨,个别优秀员工经常以"撂挑子"要挟自己,殊不知,这种坏脾气都是领导自己"宠"出来的。鳗鱼苗养殖曾是一门很有难度的生意,因为鳗鱼苗成活率太低,始终在20%左右徘
愿景激励是当前我国中小企业非常热衷的员工激励模式,但是实施中却进入了误区,遇到了许多问题,激励效果不明显,造成问题的原因主要是对支撑共同愿景的基础理解不足,企业忽视
尽管人们不再争议"谁+谁",但是实践中还是加法思维,互联网界向制造业推销各类模块,制造企业也顺着这类思维一个方案一个方案地"加",结果可能双方都不满意。无论是从国家有关