论文部分内容阅读
近年来随着深度学习在图像处理上取得的卓越成就,各类学者纷纷将其应用到自然语言处理情感分析任务上来。虽然相对于传统的基于词频统计、规则算法等技术有明显优势。但在具有情感极性转移的文本中难以捕捉到情感倾向,从而限制其分类精度。此外,现有模型严重依赖于文本向量表示的质量,而人们的评论数据错综复杂,使用向量来表示文本特征中的情感是非常有限的。而且,文本中的语言知识,如情感词典,否定词(如不、从不、才怪、怎么可能等)和强度副词(如非常、及其、很等),需要人工标注来提高模型预测精度。然而,这些情感词的标注,需要具有一定语言知识的专业人士来挖掘构建,且人为开发的情感词典可能不适用于某些特定领域,不易扩展。本文针对以上问题,进行情感分析方法研究。本文的研究内容如下:
(1)对比了传统的情感分析技术和基于深度学习的情感分析技术,通过实验验证基于深度学习的方法在分类精度上普遍优于基于传统的情感分析方法,总结出基于深度学习的方法是未来研究情感分析任务的必然趋势。
(2)针对具有情感转移词的文本中难以判断情感倾向问题,提出一种新型的卷积注意力机制模型,使用卷积注意力机制来捕获文本中具有语义转移词语,并通过实验验证其有效性。
(3)结合上面提出的卷积注意力机制,构建了一种新型的基于卷积注意力机制的情感分析网络模型CNN-Attention-LSTM。使用卷积注意力模型捕获文本中情感转移词,然后加权到文本分布式表示的矩阵中,最后通过长短记忆神经网络模型进行分类。通过在情感二分类和五分类的数据集上进行试验,对比传统的情感分析方法以及目前新颖的深度学习模型,此模型取得了优异结果。
(4)针对现有模型严重依赖于文本向量表示的质量问题,提出了基于长短记忆神经网络的胶囊模型LSTM-Capsule。设计了具有卷积注意力机制的胶囊结构,胶囊结构包含一个属性、一个状态和三个模块(表示模块、概率模块和重构模块)。将LSTM网络中隐藏层的输出作为胶囊模型的输入,优化函数为正确分类的胶囊输出的概率最大化和词向量重构后误差最小化。在选取的两个公共数据集和一个专有数据集上实验表明,该模型取得最佳分类精度。此外,该模型能够输出代表胶囊属性的情感倾向词,这些词在一定程度上反映出了数据集的领域特性。
(1)对比了传统的情感分析技术和基于深度学习的情感分析技术,通过实验验证基于深度学习的方法在分类精度上普遍优于基于传统的情感分析方法,总结出基于深度学习的方法是未来研究情感分析任务的必然趋势。
(2)针对具有情感转移词的文本中难以判断情感倾向问题,提出一种新型的卷积注意力机制模型,使用卷积注意力机制来捕获文本中具有语义转移词语,并通过实验验证其有效性。
(3)结合上面提出的卷积注意力机制,构建了一种新型的基于卷积注意力机制的情感分析网络模型CNN-Attention-LSTM。使用卷积注意力模型捕获文本中情感转移词,然后加权到文本分布式表示的矩阵中,最后通过长短记忆神经网络模型进行分类。通过在情感二分类和五分类的数据集上进行试验,对比传统的情感分析方法以及目前新颖的深度学习模型,此模型取得了优异结果。
(4)针对现有模型严重依赖于文本向量表示的质量问题,提出了基于长短记忆神经网络的胶囊模型LSTM-Capsule。设计了具有卷积注意力机制的胶囊结构,胶囊结构包含一个属性、一个状态和三个模块(表示模块、概率模块和重构模块)。将LSTM网络中隐藏层的输出作为胶囊模型的输入,优化函数为正确分类的胶囊输出的概率最大化和词向量重构后误差最小化。在选取的两个公共数据集和一个专有数据集上实验表明,该模型取得最佳分类精度。此外,该模型能够输出代表胶囊属性的情感倾向词,这些词在一定程度上反映出了数据集的领域特性。