论文部分内容阅读
近年来,信息技术的快速发展,促进了电商贸易和网上互动平台的发展,也刺激了网络评论文本的激增。通过对大量网络评论进行研究,可以帮助政府、企业商家、顾客做出更合理更有利的决定。由于网络评论的重要性被越来越多的人所重视,网络评论文本的情感倾向性分析已成为自然语言处理领域的研究热点之一。另外,通过对情感词的极性强度进行量化分析,可以有效区分其情感色彩程度,从而帮助人们进行更为准确的情感表达。故关于情感词的语义模糊性研究也是一大研究热点。本文选取网络评论中的情感词作为研究对象,结合汉语语言的自身特点,对情感词的语义模糊性进行量化分析,同时在意见挖掘领域对其进行应用。本文的主要工作有:1、基于How Net情感词典,提出基于Word2vec词向量和How Net语义相似度线性叠加的词典构建方法,在NTUSD情感词典和网络情感词典范围内,扩充How Net情感词典。2、针对简单情感词的语义模糊性,提出将Word2vec与How Net线性叠加方法和基于词频统计方法相结合的新方法,实现对简单情感词极性强度的量化。通过实验发现,使用该方法量化情感词的语义模糊性,可以有效提高情感词极性量化的正确率。相比Ku等人的方法,极性强度量化的正确率在α=0.3时提高了10.8个百分点。3、针对复杂结构的情感词,根据其每一小类别的不同结构特点,设计不同的情感极性强度量化方法,然后对提出的方法进行实验验证。根据得到的实验结果,发现利用该方法进行极性强度量化的正确率在α=0.3时提高了13.5个百分点。4、在意见挖掘中对上述提出的方法进行具体应用。首先,在分类模型上对实验文本集进行有无融合情感词典的对比实验,实验结果表明融合了情感词典的意见挖掘具有更高的准确率,四种分类模型在正负向文本上的准确率分别提高了5.1%和5.1%;2.8%和3.4%;6%和6.6%;3.4%和2.7%。其次,对传统的NB、SVM以及CNN和RNN分类算法进行改进,并在改进后的分类模型上进行融合情感词典的对比实验,实验结果表明改进后的四种分类模型在正负向文本上的准确率分别有提高1.7%和4.2%;2.9%和3.4%;2.2%和2.3%;3.3%和3.5%。