论文部分内容阅读
随着国内微博的快速发展,国内舆论几乎都在微博形成热点并引起广泛的讨论和强烈的反响,微博已经逐渐成为了一个重要的实时信息源和舆论传播中心。在热点事件发生之后,人们往往通过微博第一时间获取事件信息,并在微博上参与讨论,从而产生一些热门话题,对话题下的用户所发表的相关微博的信息进行挖掘和分析,可以帮助我们探究事件发生后群众的情感和关注变化,这对政府掌握和监控突发事件后的社会公众心理变化情况有着非常重要的意义。为了获取微博热点话题事件的舆情演化情况,本文针对新浪微博热门事件话题“女司机惨遭男司机暴打”中的评论文本进行情感分析和舆情追踪,基于情感词典和CRF模型多特征组合的方法进行话题型微博情感极性分类,对比不同特征组合下,情感极性分类的效果。基于规则和句法依存分析相结合的方法挖掘热点话题下微博评价对象。针对抽取的评价对象存在含义相似、形式不同的问题,本文还进行了聚类研究,从而挖掘出用户对热点事件的多个关注点,呈现出更好的微博关注点分布,最终实现对热门话题微博的舆情演化分析。主要研究包括以下几个方面:(1)对微博文本区别于传统文本的特点进行了研究,分析几种后期研究可能使用的微博文本特征,并介绍了微博情感分类相关技术、目前情感分析的研究现状,以及情感分析相关的国内外评测会议。(2)构造了中文微博情感词典,以知网情感词典、台湾大学情感词典和大连理工情感词汇本体为基础构造情感词典,并对基础情感词典进行基于《同义词词林扩展版》的同义词扩展。另外,还对情感词典进行网络新词、表情符号、程度副词以及连词的扩展。(3)以构建的情感词典为基础,本文采用基于CRF模型多特征组合的情感分析方法对话题型微博进行情感极性分类,选用四种文本特征,包括词、词性、情感词极性和否定词,并采取不同的特征组合,通过多组实验进行对比,获得使情感分类效果最优的特征组合。(4)微博热点事件话题下,不同用户往往对同一事件有着不同的关注点和不同的评价对象,因此本文进行了如何抽取话题类微博的评价对象的相关研究。通过分析发现热点话题下的微博评价对象多为名词、名词短语以及微博的话题标签,因此本文将潜在评价对象限定为名词或名词短语,首先基于汉语名词短语的定义抽取潜在评价对象。之后采用了基于规则和句法依存分析相结合的方法提取<情感词,评价对象>二元关系词对过滤潜在评价对象,抽取实际评价对象。针对评价对象抽取结果表达形式多样的问题,本文基于聚类对评价对象进行合并,提炼出话题的评价角度,从而挖掘出用户对热点事件的多个关注点,呈现出更好的微博关注点分布。同时针对这些关注点进行情感追踪,了解舆论情感的变化情况。(5)本文采用的实验数据集为新浪微博热门话题“女司机惨遭男司机暴打”下的微博评论,是通过新浪API爬取的连续5天的微博数据。