论文部分内容阅读
目的:从数据挖掘角度出发,对微博进行细粒度情感分析,通过计算情感强度值将情感分为“乐、好、怒、哀、惧、恶、惊、疑”八类,从而尽可能还原微博用户情感,并选取药物相关的微博进行实证,不仅初步探索了细粒度情感分析的可行性,还为消费者购买药品提供了决策支持,方便后续研究。方法:通过大量阅读文献,分析了目前国内外情感分析的主要方法及其利弊,确定了本文采用情感词典结合规则的方法进行情感分析。因此,本文补充了情感词汇词典并构建了一系列辅助词典来充分识别微博中的情感信息,力求情感分析的准确性。首先,基础情感词汇词典方面,在大连理工信息检索教研室构建的《中文情感词汇本体库》的基础上,结合梅家驹老师编写的《同义词词林》进行合并,从而实现情感词汇词典的完善;其次针对网络用户在互联网的疑问情绪较多的事实,结合《中文情感词汇本体库》、《同义词词林》、新浪微博所构建的疑问词词表形成疑问词词典,并依据与《中文情感词汇本体库》中含有的词通过互信息法获得疑问词强度,实验证明本文构建的疑问词词典能够有效识别微博文本中的疑问情绪;再次考虑到社会化媒体平台中情感形式表达的多样性,本文选取了微博上常用的113个表情符号及筛选之后得到的90个网络用语,通过与《中文情感词汇本体库》进行比对及互信息法,获取其情感类别及强度,从而构建了表情符号词典与网络用语词典;最后,考虑到对情感表达有修饰作用的词语,并且这些修饰作用的词语会对情感表达的强弱产生影响,因此本文在前人研究及《同义词词林》的基础上,构建了程度副词词表、关联词词表、否定词词表,并为程度副词词表、关联词词表赋予了权重。然后基于已构建的情感词典等结合制定的语义规则进行情感计算,从而得到每条微博的情感分类及情感强度。与以往传统的基于情感词典与规则的方法仅统计词频不同,本文在判定情感分类时,根据不同类别情感强度的不同而判定情感分类,并通过准确率(Precision)、召回率(Recall)、F值(F)三个指标对两个方法进行了对比验证。结果:(1)通过对人工标注的明确分类为“疑”类的微博进行情感分析,本文构建的疑问词词典识别疑问类情绪的准确率为71.68%,明显高于一般词典识别疑问情绪的准确率2.51%,说明了本文构建的疑问词词典的有效性。(2)利用准确率、召回率、F值对本文提出的情感分类方法以及传统的基于情感词典词频统计的方法进行比较后,本文提出的方法在各情感类别的准确率和召回率较基于词频统计的传统方法均有所提高,说明了本文情感分类方法的有效性。(3)通过以药物相关微博数据为例进行实证,不仅探索了微博细粒度情感分析的实用性,还为用户选购治疗同一疾病的药品提供了更多角度的选择从而支持购买决策。结论:本文通过构建疑问词词典识别用户“疑问”类情绪,并通过实证,验证了其有效性。此外,针对社会化媒体用户情感表达多样性的特点,本文构建了包括表情符号、网络用语等细粒度情感分析词典对药物微博进行细粒度情感分析,不仅将情感分为8类还给出情感强度,并且通过与传统方法的对比从准确率、召回率、F值三个指标说明了本文方法的有效性与优异性。