论文部分内容阅读
随着互联网及移动手持设备的普及,微博因其低门槛性以及自由随性的特点,在短时间内发展迅速,变成了人们交流和获取信息的一个重要舞台。在众多的微博平台中,新浪微博最为流行,其月活跃用户数量在2017年已经达到3.76亿,每天都会产生多于1亿条的新微博。不难看出,微博的用户群体是十分庞大的,蕴含着丰富的有价值的信息,这些在微博上的信息潜移默化的影响着人们的生活,一定程度上影响了社会的发展。微博的信息量如此巨大,必须要对各种各样的信息进行甄选,这种需求是必须的而且是迫在眉睫的。从数亿微博中挖掘出影响力大的热门话题,从而对网络行为加以监督和规整,创造良好的上网环境,以及从中收获有价值的信息,进行诸如商业价值,信息传播学,以及一些社会学方面的研究。这对于社会的和谐发展、健康的网络环境的创建、积极的网络舆论的引导等都有重要的推动作用。微博舆情分析系统就是用来实现热点事件的挖掘与分析,本文主要研究有关微博舆情监测的关键技术以及介绍其原型系统的实现,论文的研究工作主要从下几个方面展开:1.本文首先介绍了微博舆情研究的目的以及国内外的研究成果;接着介绍两种采集微博数据的方式:利用网络爬虫和新浪微博API获取微博数据。网络爬虫是一种传统的获取网页数据的方式。微博开放平台主要是微博官方提供的API接口,供用户调用。2.数据预处理,首先需要中文分词,利用ICTCLAS系统对文本分词,该系统分词速度快且精度高,而且支持人为添加新的自定义词库。分词完成需要进行关键词的抽取,利用TF/IDF算法进行特征抽取,在文本表示模型上,介绍了多种常用的模型,最终采用了应用广泛的VSM向量空间模型进行文本表示。3.在舆情分析阶段,最重要的是运用适当有效的聚类算法对文本进行聚类。本文对比了一些传统的聚类算法的优缺点,针对微博文本的特殊性,对传统的k-means聚类算法进行了改进,得到并验证了改进后的算法。聚类结果为后续微博舆情分析,热门话题检测,文本倾向性分析的基础。