论文部分内容阅读
随着互联网的普及和信息技术的飞速发展,海量的主观性评论出现在微博、淘宝、天猫等各种网站上,这些评论包含了发表者对评价对象的情感信息和主观观点,用户也习惯从各种评论中获取有价值的信息来辅助自己的决策。情感分析涉及到人工智能、自然语言处理以及机器学习等领域,是一门综合性研究学科。当前,对于文本情感分析研究者通常采用的研究方法是基于情感词典和基于机器学习的方法,但是传统的情感分析方法大都需要大量的人工工作,而且也不能得到很好的性能。本文所研究的情感分析是二分类(正面情感和负面情感)的,为了改善产品评论文本的情感分类效果,设置了多组对比试验来选择最优的分类模型,主要做了以下工作:(1)通过发掘新的情感词来扩展情感词典的方法,提高了情感词典的覆盖度。包括两个方法:基于近义词和规则模板进行情感词典拓展。实验把扩展前后的情感词典用于情感倾向性计算中,测试分类结果对比表明扩展以后的词典有效的改善了分类效果。(2)研究了基于机器学习的情感分析。在浅层学习中,采用改变传统的特征选择方法比如一元词组、二元词组等,而是将词向量作为特征输入,并融合情感信息和极性转移在里面,使生成的分类器获取了更深层次的语义信息,该特征表示方法避免了传统方法中用忽略语义、极性转移及特征维度高的问题。在深层学习中,考虑到长短时记忆网络的优势,选取了基于attention机制的双向LSTM模型作为深度学习分类模型。实验证明深层学习算法比浅层分类算法的情感分类效果更好。(3)研究了基于词向量技术的情感分析方法。把FastText模型和BERT模型分别用于情感分析研究中,FastText的和word2vec原理类似,BERT像是word2vec的一个加强版,他们的词级别或句子级别向量表示一样都是预训练得到的,word2vec的向量表示与上下文无关,BERT却是上下文有关的,这两个模型对比实验上结果表明,BERT在分类上表现的更好。(4)研究并实现了基于融合技术的情感分析方法。主要是基于Bagging算法对文本进行情感分类,使用多个弱分类器来共同决策分类的结果,同时,根据目前分类模型的发展情况,采用情感词典与基于attention机制的双向LSTM模型进行结合的方法作为Bagging算法的对比试验,实验结果表明,基于Bagging算法的情感分析的分类准确率比较高。