论文部分内容阅读
情感分析是自然语言处理领域非常重要的一个研究方向,以前更多的研究在于判断一篇文章或者一个句子的整体情感是积极的或者消极的,而方面级情感分析旨在识别特定对象在其背景下的情感极性,例如句子:“I hated their fajitas,but their salads were great”→{fajitas:negative,salads:positive}。这种更细粒度的情感分析会满足现在流行的“互联网+”经济的需求,对于商家和消费者来说更能充分利用来自其他消费者的反馈信息,更详细的了解产品的每个属性的具体情感分类,以此更清晰的制定行为决策。深度学习现在已经成为了处理情感分析任务的主流方法,通常采用RNNs按文本序列顺序处理,学习各个单词的语义信息得到最后的语义表示,然后进行情感分类。但这些方法存在着以下不足:1.在处理过程中忽略了目标词和语境词的区别,把目标词和语境词一视同仁;2.缺乏对目标单词情感影响较大的重点语境单词的关注;3.因为RNNs对一个单词计算隐藏状态时需要前一个时间步的输出,形成序列依赖缺乏并行计算的能力;4.缺乏对目标词中不同单词重要性得区分。本文针对这些问题设计了两个模型,并在算法模型的基础上实现了一个方面级用户评论情感分析的原型系统,主要工作如下:1.为了区分目标词和语境词以及加强对目标词影响较大的重点语境词的关注,提出了基于LSTM结构的注意力模型(AA-LSTM)。改进目标词表示并拼接目标词和语境词作为模型输入、使用两个LSTM结构分别从文本的两端开始向目标词方向获取上下文的语义信息,并使用注意力机制对目标词情感极性影响重大的单词的语义信息进行关注。该模型在淘宝数据集上进行了二分类、三分类和四分类实验,二分类实验准确率为95.79%,三分类实验准确率为86.45%,四分类实验准确率为79.73%,在二分类上高于其他基线模型近3%,在三分类上也高于其他模型2%以上,在四分类上高于其他基线模型1.54%,精确率和F1值也比基准模型更好。2.为了区分目标词和语境词、加强对重点语境词的关注、提高模型并行计算能力以及对目标词中不同单词重要性进行区分,提出了双层注意力模型(DA-ABSA)。该模型使用注意力机制代替RNNs作为特征提取器,解决了使用循环神经网络产生的序列依赖问题。融合词向量和单词的位置信息作为模型输入;拼接多个自注意力结构进行特征提取,使模型在不同的子空间中学习输入数据的相关特征;使用文本注意力机制区分构成目标词的多个单词的重要程度,获取更有意义的目标词特征,以此来微调对语境词的注意力权重。用Semeval-2014 task4的评测任务进行了评测和对比实验,与基准模型相比在准确率、精确率、召回率以及F1值都表现最好,在Laptop数据集上准确率达到了74.67%、运行时间为793s,在Restaurant数据集上准确率达到了82.77%,运行时间为966s,在同等实验条件下与基准模型相比准确率提高了1-2%,运行时间节省30%以上。3.在前两章算法模型的基础上设计了一个方面级用户评论情感分析的原型系统,模拟实际场景应用算法模型,包括数据爬取、数据处理、情感分析以及结果展示等功能,对结果进行可视化展示,使算法模型的处理流程更加完整。