论文部分内容阅读
近年来,情感分析作为自然语言处理中的一个重要组成部分,一直受到众多学者的青睐,其中针对微博的情感分析成为了当前研究的热点。微博作为一种新型交流互动方式,赋予了人际交流新的魅力,深受大众推崇。微博信息看似杂乱无章,其实具有很重要的应用价值。微博为网友提供了一个平台,网友在这个平台上反映自己在社会上存在的各种问题,发布了很多带有浓烈的个人情感倾向性和强烈主观色彩的消息来表达自己的真实情感。本文首先简述了当前文本情感分析领域的相关研究现状,简单介绍了各种情感分类模型,总结了传统文本情感分析研究工作,对微博这一新型文本的特点进行了相关介绍和研究。微博情感词典及相关资源的构建是本文微博情感分析中一个重要的工作。在微博情感词典的构建中,本文一方面对几个比较权威的开源情感词典进行筛选整理得到基础情感词典;另一方面根据情感词的句法特点,构建句法结构模版,利用模版对情感词进行进一步的扩展。程度副词,否定词和连词对情感词有着明显影响,本文对上述虚词构建了相应的词典。微博中常用表情符号来明确表达当前情感,本文构建了表情符号情感词典。并将带有情感色彩的网络用语进行抽取成网络用词情感词典。同时针对多义性的情感词和隐含性的情感句构建了一些规则。整合基础情感词典,扩展情感词典,表情符号情感词典,网络用词情感词典,最终得到本文的微博情感词典。本文利用最终构建的微博情感词典对于微博文本进行情感分析。为了检验本文构建的微博情感词典和规则对于微博情感分析的有效性,本文选用了基于最大熵和基于支持向量机两种分类模型作为对比方法;为了验证词典的适用性,本文选取了两种的实验语料,一种是各种分类是均匀分布的平衡语料,另一种是各种分类是随机分布的非平衡语料。实验对比结果中,可以看到在两种微博语料中,利用本文构建的微博情感词典和规则对于微博情感分析的效果比另外两种分类模型的效果要好,验证了本文构建的微博情感词典对于微博情感分析的有效性和适用性。