论文部分内容阅读
随着互联网技术日新月异的更迭与发展,越来越多的网络社交平台开始在普通民众的生活中占据重要的分量。网络的发展为人们生活带来便利,拓宽了人们的视野,也构建出一个新型的社交空间和社交模式。现在,人们通过新浪微博等平台积极参与互动,发表见解。对时事的讨论,新浪微博已经发展众多网民网络生活的重要阵地。在进行网络活动的过程中,人们发布的微博,回复的内容,转发的评论等文字载体都是人们情感倾向的具象化表现,对这些文本进行情感倾向性分析对政府部门把控当前舆论主流,制定相关政策有很大帮助,企业也可以通过相关评论调整经营策略。本文即是面向新浪微博热点事件进行情感倾向性分析研究。传统的情感倾向性分析一般利用情感词典或是通过机器学习对文本进行情感倾向性的分类判别,在情感分类精度上存在不足,缺陷很明显。本文对这两种方法进行相应的改进,并综合二者进行新浪微博热点事件的情感倾向性分析,相关的改进内容如下:1)数据获取方式。新浪微博在其开发者平台提供了 API接口,但考虑到API接口数据获取速度太慢,并且对数据获取量有限制,本文增加了爬虫方式进行新浪微博文本的获取渠道。2)基于词典的情感倾向性分析。本文首先选取了目前主流的中文情感词典集,对情感词汇进行合并。考虑到网络词汇的发展导致“旧词新意”现象,本文通过统计典型网络语句对一些情感词的情感倾向进行修正。在网络语句中,一些无结构的词汇常常具有重要的情感信息,本文整理了典型的网络新词用于网络语句的情感判别。同时,引入了EMOJI表情词典,实现了带表情符号的短文本情感倾向性判别。.考虑到词汇需要更新,本文通过Word2vec中的Skim-gram模型进行词的向量表达,计算词汇相似性的同时,利用SO-PMI算法计算候选情感词与基准情感词之间的点互信息,最终进行词汇的扩充。3)基于机器学习的情感倾向性分析。本文利用FastText模型与基础分类器结合的方法极性情感倾向的判别。FastText模型具有词向量表达功能,同时还保留了词汇位置关系信息,引入情感词汇的位置权重可以进一步的提升情感准确率。本文以最近邻分类算法为蓝本,提出了一种增加K值内密度均值与类-心距离为权重的IDBKnn算法。利用标准Iris Dataset,对IDBKnn和其他分类算法进行比较,验证了其优秀的分类性能。4)最后在实现微博短文本情感倾向性分析过程中,利用扩展的词典集,对短文本进行情感倾向的一次判别,将情感倾向明显的文本选作训练集进行模型训练。训练后的分类模型再对模糊情感文本进行二次判别。通过上述研究及改进方法,完成了相关对比实验,实验结果也验证了,结合情感词典与机器学习的情感倾向性分析模型比单一的情感判别具有更高的准确率。