论文部分内容阅读
微博作为一种新兴的社交媒体被广泛使用,其每天的数据交流数量呈现爆炸式的增长,这些数据为自然语言处理提供了良好的语料环境。微博文本具有和短文本一样的长度较短、情感表达强烈、话题单一的特点,这就需要通过不同于长文本情感分析的方法来处理。本文通过对短文本情感分析进行改进,将上下文的观点信息加入到情感计算中,同时建立微博表情符号情感词典,最终得到情感倾向性结果。本文首先对微博评论文本的处理技术进行研究和探讨,然后融合微博表情符号情感词典自动构建方法构建微博情感词典,同时抽取出微博评论的上下文观点信息,最后对这些信息进行整合处理,得到情感倾向性分析结果。本文所做的工作主要包含以下三个方面的内容:(1)提出了基于微博表情符号的情感词典自动构建方法,并应用于微博评论情感分析微博评论文本通常具有主观情感,并且领域广泛,因此在进行情感倾向性分析之前我们要正确分析出微博评论的情感信息。情感词典的完善程度决定了情感分析准确率的高低,在考虑微博表情符号对微博文本情感倾向的影响以及情感词典构建的基础上,提出一种融合表情符号的情感词典自动构建方法。该方法首先利用COAE2015任务一中提供的训练数据集对其进行分词、去重等操作,然后获得情感词并得到其在正负向语料中的出现次数,最后再利用PMI计算其情感倾向性大小,最终生成情感词典。(2)研究上下文观点信息对情感倾向性的影响,提出一种基于上下文观点信息的情感倾向分析方法在进行情感倾向性分析之前,首先要对文本当中的上下文观点进行界定。由于用户在发表评论时或多或少的会受到原始文本以及其前面评论的影响,本文提出了基于上下文观点信息的情感倾向性分析方法,并将其应用到微博评论中的情感分析当中。该方法首先对评论文本按照评论的先后次序进行编号,按照次序的大小对评论文本进行赋值权重,最后结合建立的情感词典,获得算法最终的情感倾向。(3)设计并实现了基于上下文观点信息的微博情感倾向性分析原型系统在分析微博评论文本的情感倾向性过程中,针对每个方面设计了相对应的功能模块,并实现了基于上下文观点信息的微博情感倾向性分析原型系统。该系统可以对微博当中出现的评论文本进行挖掘抽取、分析处理,并最终向用户提供直观的情感倾向性。