论文部分内容阅读
移动互联网的快速兴起正在从根本上改变着人类的生活,人们在虚拟社会中快速自由的发布消息、情感宣泄。越来越多的网民习惯于在社交媒体中获取信息,产生对事件的认知、态度以及情感倾向。微博作为最具代表性的社交媒体舆情传播平台之一,其数据涉及各年龄、各行业、各层次,因此蕴含着巨大的社会价值与商业价值,如何快速有效地对这些微博信息进行舆情分析已成为当前的迫切需求。本文旨在对微博短文本进行深入的舆情分析,即从海量无序的微博短文本中快速提取出关键信息并对其中情感倾向进行分析。本文研究内容主要分为以下几个方面:(1)微博短文本的关键词提取。结合微博短文本形式多变、数据量大的特点,本文采用基于TF-IDF算法和基于TextRank算法的关键词提取技术对微博文本进行关键词提取,然后通过实际案例分析,成功提取到舆情事件的主要信息及网友对此事件所持有的关键情感态度词语。从而快速获取网民情感态度,及时发现问题、化解矛盾、正确引导网络舆情。(2)基于情感词典的微博短文本舆情分析。首先介绍了国内现阶段主流的情感词典,然后对国内主流的情感词典进行整合,并将微博中大量不能被识别情感极性的词语在判断情感词的极性后加入到情感词典当中。通过对现有的情感词典的整合扩充,得到网络舆情事件微博情感词典,并基于情感词典的情感分类模型对网络舆情热点事件进行分析,得到特定时间段内的情感倾向和情感变化趋势。(3)基于机器学习的微博短文本舆情分析。本文采用北京理工大学张华平老师分享的500万条微博数据和NLPCC在2013和2014年公开数据集作为Word2Vec的词向量训练语料库,并基于机器学习的XGBoost算法构建情感分类模型。在微博语料之上,充分考虑了词与词之间的上下文语境关系,从而有效的解决传统分类方法对词语位置和词语搭配忽视的问题,提高了情感分类的准确率。