论文部分内容阅读
近年来社交网络得到了快速的发展,作为社交平台的一员,微博以其即时性、互动性、便捷性的特点从一众社交平台中脱颖而出。越来越多的人通过微博获取信息、分享心情、交流观点。通过对微博文本中的信息进行情感分析,可以获悉群众意见、了解用户态度、得知产品信息,这对政府的政策颁布、企业的发展定向、商家的产品改良都有着巨大的益处。微博成为了人们日渐离不开的社交工具,而微博文本情感分析研究也受到了越来越多专家学者的重视。微博情感分析主要是判别微博文本的情感倾向,情感倾向一般分为正向、负向、中性三种类别。微博文本与传统文本在内容格式上有较大不同,在对微博进行情感分析时,需要在传统文本情感分析的基础上,加入对微博自身特点的考虑。本文对已有基础情感词典进行分析整合,并创建网络情感词典进行补充;基于微博语料文本,创建微博领域情感词典和微博表情词典,对基础情感词典进行扩展;分析文本语义规则并设置相应权值,最后结合扩展词典和语义规则对微博文本进行情感倾向性分析。本文的主要研究内容如下:(1)微博文本情感分析建立在情感词典的基础上,本文对已有基础情感词典资源进行整理和分析,根据投票规则和优先权规则创建综合基础情感词典,统计分析用户上网习惯,选取热门输入法词库中的网络情感词创建网络新词情感词典。(2)创建微博领域情感词典和微博表情词典对传统情感词典进行补充。基于微博语料,采用扩展的SO-PMI算法自动创建微博领域情感词典,并对创建过程中基准词选取方法和候选词选取方法进行改进;从微博预料中根据词频选取常用微博表情,创建微博表情词典。(3)语义规则会影响文本的情感分析效果。从词语和语句两个方面分析语义规则,词语规则主要分析否定词修饰规则和程度词修饰规则,语句规则主要分析句间规则和句型规则。此外还分析了文本末句规则以及文本表情加权规则。最后,为了验证本文提出的基于扩展词典和语义规则的方法的有效性,采用COAE2014微博测评数据进行实验,实验结果表明,相对于传统的微博情感判别方法,本文提出的改进方法提高了微博文本情感分析的准确率。