论文部分内容阅读
如今,计算机网络技术发展之势迅猛,互联网诚然已是当代生活的信息媒介,网络在线文档随之成了人们日常生活中的关键信息渠道,而微博(Microblog)即是当中最具影响力的媒介之一。作为一种新的传播载体,微博广受大众推崇。其中,这些观点中隐含的内在信息,可用来辅助微博营销、商家宣传、客户关系管理乃至政府层面的舆情监督等工作。因此,最近几年的时间里,许多学者投入到情感分析的研究工作中。其中在国内,以新浪微博为代表的微博客,主要采用中文符号,中文句法结构,语义表达的不同丰富了中文微博内容的表现形式,同时为其情感分析带来了一定的难度。鉴于此,国内关于中文微博的情感研究工作开始盛行。情感分析具体指以微博文本为载体的用户将要表达的情感状态,一般指二分类的层次划分,即消极,积极。其中相关词典构建以及具体倾向识别是微博语料情感分析的重要部分。首先本文进行了网络用语词典的构建任务。为实现该目标,该文一方面过滤并整理现有的词典资源,产生了基础词典;另一方面着重完成网络情感词典的扩建。针对微博训练的标注性差异,本文分别提出了基于自启状态机的标注语料的CHI-Order算法以及无需人工标注微博实验语料的CO-PMI方法。通过对微博语料进行实验,获得网络情感词语,依次采用CHI和PMI计算上述词的具体情感以及力度,阈值的设置实验完成了有效情感词的合理选取,最终完成了中文情感词典资源的构建工作。最后,本文设计实验进行情感词典有效性验证。实验数据采用COAE评测微博语料,实验验证了本文方法的可行性。实验结果表明:CHI-Order和CO-PMI算法的准确率分别为81.89%,74.14%,均取得了较好的分析效果。此外,在微博情感倾向识别部分,本文主要基于上文已构的词典集对微博语料展开情感分析的工作。为了提高微博情感识别的准确率,本文后续提出了基于句间关系的规则式计算方法,除了基本词汇、词性特征、表情符等特征的影响,该方法充分考虑到连词特征,句子特征对情感表达的作用效果。实验表明,该方法取得的分析均值为80.49%,实验效果高于贝叶斯学习模型。