论文部分内容阅读
舆情是“舆论情况”的简称,指在一定的社会空间内,围绕社会事件的发生、发展和变化,民众通过各种时政事件对社会管理者的处理所反应的社会政治态度。在互联网发展之前,新闻媒体获取线索主要依赖记者跑线、通讯员发通讯、观众、听众、读者来信、来电。如今互联网发展迅猛,对于新闻记者而言,对舆情进行高效搜索并提取出有效的信息,是做好现代新闻报道的前提。微博作为近年来比较热门的社交软件,大量民众的意见信息都由此途径得到表达。本文内容主要选取有互联网舆情风向标之称的“微博”作为研究对象,讨论微博上的舆情搜索的相关理论背景、现有研究成果,在此基础上通过实践建立搜索软件。本论文分析了搜索系统所需数据挖掘、云计算、语义分析等关键技术,探讨如何利用这些技术特点,对海量的微博舆情信息进行授权和非授权方式的快速获取、合理过滤、有效分析,最终得出新闻报道相关的有用数据的过程。该微博舆情搜索系统采取定时器的设计,通过自动化的工作方式,把数据收集、数据过滤、舆情分析环节有机衔接,最终得出相应的舆情。该系统使用数据挖掘理论和技术、语义分析理论和技术、云计算技术,设计中遵从HTTP协议,运用HTML语言,作出授权和非授权方式的抓取,同时部署突破官方网的防止抓取技术,使其能在大数据量、大压力、有限制的环境下实施数据抓取、挖掘与分析。本论文结合具体案例和应用进行详细论述,同时针对研究过程中遇到的困难进行分析,提出优化方案。