情感语境中的微博舆情分析研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:skyisheaven1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的快速兴起正在从根本上改变着人类的生活,人们在虚拟社会中快速自由的发布消息、情感宣泄。越来越多的网民习惯于在社交媒体中获取信息,产生对事件的认知、态度以及情感倾向。微博作为最具代表性的社交媒体舆情传播平台之一,其数据涉及各年龄、各行业、各层次,因此蕴含着巨大的社会价值与商业价值,如何快速有效地对这些微博信息进行舆情分析已成为当前的迫切需求。本文旨在对微博短文本进行深入的舆情分析,即从海量无序的微博短文本中快速提取出关键信息并对其中情感倾向进行分析。本文研究内容主要分为以下几个方面:(1)微博短文本的关键词提取。结合微博短文本形式多变、数据量大的特点,本文采用基于TF-IDF算法和基于TextRank算法的关键词提取技术对微博文本进行关键词提取,然后通过实际案例分析,成功提取到舆情事件的主要信息及网友对此事件所持有的关键情感态度词语。从而快速获取网民情感态度,及时发现问题、化解矛盾、正确引导网络舆情。(2)基于情感词典的微博短文本舆情分析。首先介绍了国内现阶段主流的情感词典,然后对国内主流的情感词典进行整合,并将微博中大量不能被识别情感极性的词语在判断情感词的极性后加入到情感词典当中。通过对现有的情感词典的整合扩充,得到网络舆情事件微博情感词典,并基于情感词典的情感分类模型对网络舆情热点事件进行分析,得到特定时间段内的情感倾向和情感变化趋势。(3)基于机器学习的微博短文本舆情分析。本文采用北京理工大学张华平老师分享的500万条微博数据和NLPCC在2013和2014年公开数据集作为Word2Vec的词向量训练语料库,并基于机器学习的XGBoost算法构建情感分类模型。在微博语料之上,充分考虑了词与词之间的上下文语境关系,从而有效的解决传统分类方法对词语位置和词语搭配忽视的问题,提高了情感分类的准确率。
其他文献
企业的生命周期一般会经历初创期、成长期、成熟期和衰退期,而企业在每个时期都面临着不同的环境,都有不同的阶段特征。剖析处于不同生命周期的企业财务特征,探寻适合不同生
介绍福建宁德天池大桥120t缆索吊机总体布置、各部分结构特点,以及主索、缆风索、后锚的设计和施工,并对缆索吊机关键技术进行了说明。
为建立一种分析油炸食品中痕量丙烯酰胺的灵敏准确、快速简便、成本低廉的新型流动注射化学发光分析方法,样品中的丙烯酰胺经提取后,利用其对鲁米诺-过氧化氢化学发光体系的
行政主体是大陆法系国家行政组织法上的核心概念,是以行政分权为理论基础设立的公法人。我国行政法学界对国外行政主体理论进行了移植,但这种移植是错位的。现代行政管理体制
<正>对淘宝小卖家而言,站内流量固然重要,站外引入流量更省钱,如果能双管齐下就更好了!这些流量都是能够进行交易的前提。达人档案:淘宝店店主:小红开店时间:三年7月26日,淘
"80、90后"大学生群体已经成为当代中国大学生的主要组成部分,这一代以独生子女为主体的大学生群体受到了教育界、大众社会及媒体前所未有的关注。如何正确、客观地认识"80、
在英语教学中,越来越多的教师进行个性化阅读教学,但在实施中,遇到了很多问题。尝试从课前预习、课堂教学、课后巩固、个体评估等环节分析实施英语个性化阅读教学的策略,为保
本文测定了天然茯苓、发酵茯苓、药性发酵茯苓和复合药性发酵茯苓的多糖、总糖、氨基酸和微量元素的含量。研究结果表明不同茯苓的化学成分有较大差异,探讨了上述差异产生的
<正> 康德在创立自己的批判哲学时,提出了“物自体”和“现象”的学说,并明确划分了现象界和物自体界,设定了“只能思之不能知之”的物自体。虽然,物自体不可知这一结论是错