微博舆情监测关键技术研究及原型系统实现

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:slik
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网及移动手持设备的普及,微博因其低门槛性以及自由随性的特点,在短时间内发展迅速,变成了人们交流和获取信息的一个重要舞台。在众多的微博平台中,新浪微博最为流行,其月活跃用户数量在2017年已经达到3.76亿,每天都会产生多于1亿条的新微博。不难看出,微博的用户群体是十分庞大的,蕴含着丰富的有价值的信息,这些在微博上的信息潜移默化的影响着人们的生活,一定程度上影响了社会的发展。微博的信息量如此巨大,必须要对各种各样的信息进行甄选,这种需求是必须的而且是迫在眉睫的。从数亿微博中挖掘出影响力大的热门话题,从而对网络行为加以监督和规整,创造良好的上网环境,以及从中收获有价值的信息,进行诸如商业价值,信息传播学,以及一些社会学方面的研究。这对于社会的和谐发展、健康的网络环境的创建、积极的网络舆论的引导等都有重要的推动作用。微博舆情分析系统就是用来实现热点事件的挖掘与分析,本文主要研究有关微博舆情监测的关键技术以及介绍其原型系统的实现,论文的研究工作主要从下几个方面展开:1.本文首先介绍了微博舆情研究的目的以及国内外的研究成果;接着介绍两种采集微博数据的方式:利用网络爬虫和新浪微博API获取微博数据。网络爬虫是一种传统的获取网页数据的方式。微博开放平台主要是微博官方提供的API接口,供用户调用。2.数据预处理,首先需要中文分词,利用ICTCLAS系统对文本分词,该系统分词速度快且精度高,而且支持人为添加新的自定义词库。分词完成需要进行关键词的抽取,利用TF/IDF算法进行特征抽取,在文本表示模型上,介绍了多种常用的模型,最终采用了应用广泛的VSM向量空间模型进行文本表示。3.在舆情分析阶段,最重要的是运用适当有效的聚类算法对文本进行聚类。本文对比了一些传统的聚类算法的优缺点,针对微博文本的特殊性,对传统的k-means聚类算法进行了改进,得到并验证了改进后的算法。聚类结果为后续微博舆情分析,热门话题检测,文本倾向性分析的基础。
其他文献
根据智慧城市交通规划的必要性,通过智慧城市交通规划中的道路环境性能规划,以及交通发展战略缺乏这两个方面分析了所面临的问题。从城市规划和交通、房地产和交通、城市和交
朗读,是把文字转化为有声语言的一种创造性活动。是一种出声的阅读方式,它是小学生完成阅读教育任务的一项重要的基本功,就语文学习而言,朗读是最重要的。朗读是阅读的起点,
目的:研究天然复合保鲜剂对冷鲜肉理化性质的影响。方法:通过对不同浓度配比的天然复合保鲜剂进行正交试验.比较不同比例3种天然保鲜剂组成的复合保鲜剂对冷鲜肉理化性质中硫代
随着现代工业技术的飞速发展,机器人在许多行业中的应用也愈发广泛。结合时代背景,我国提出了“中国制造2025”战略和“工业4.0”的概念,因此越来越多的中职学校对机器人课程
[目的/意义]网络舆情主题挖掘能够全面把握热点事件的演化规律,为政府部门制定正确的舆论引导和监控起到积极作用。[方法/过程]基于生命周期理论将网络舆情事件分为酝酿期、
目的:通过对比86例胎儿淋巴水囊瘤的超声表现及妊娠结局,进一步深入分析胎儿淋巴水囊瘤的产前诊断思路及预后判断。方法:对2002年1月~2005年12月在我院行产前超声检查发现的8
在音乐课中我们要进行音乐知识与技能的教学,不是简单机械地训练,而是应该运用各种手段让音乐知识与技能的学习变得生动有趣起来,让这种训练隐藏于各种活动之中,蕴含在各种情
以鲜鸡蛋为主要原料,通过蒸煮、切丁、油炸、卤制、烘干、拌料、包装、杀菌等工艺制成,以油炸工艺为主要操作要点,探究了不同油炸温度、油炸时间、油炸用油对产品感官品质的
采用类比和元素法的思想,通过流体流过曲面的流量推测高斯公式的形成过程,并通过一个具体的例子,验证高斯公式的正确性和有效性.