论文部分内容阅读
短文本情感分析是通过使用采集、处理、分析等方式来获取文本的情感极性。目前,基于深度神经网络的情感分类方法能够有效克服传统方法对情感词典和复杂特征工程的依赖,并取得了显著的情感分类效果。然而,短文本情感分类研究存在以下问题:文本自身句式短小、不规范、信息丰富,且神经网络模型训练时间长、易忽视句子中的上下文依赖关系。针对上述问题,本文提出两种情感分析模型并且针对短文本构造三组情感特征,主要研究内容如下:(1)针对循环神经网络模型存在信息记忆丢失、忽略上下文非连续词之间相关性和梯度弥散的问题,提出基于自注意力机制和树形长短时记忆网络(Tree-LSTM)的情感分析模型。该模型考虑到Tree-LSTM缺乏对情感词的捕获能力,首先在Tree-LSTM的输入端添加自注意力机制,然后在Tree-LSTM模型中学习长距离节点之间的语义搭配关系,最后在输出端引入Maxout神经元解决随机梯度下降算法中存在的梯度弥散问题。将该模型与六个情感分类模型进行对比,在公开数据集COAE2014上完成情感二分类实验,实验结果表明该模型在评价指标准确率、精确率、查全率、F1值上优于所选取的对比模型。(2)针对单一文本词向量无法全面表示文本中的情感特征信息,本文进一步研究短文本自身特点,提出四种文本特征并融合成三组情感特征。四种特征分别是词特征、词性特征、情感符号特征、情感标签特征。其中词特征是最基本的特征;词性特征是对词语的词性重新标注,使神经网络增加对情感词的注意和学习;情感符号特征比情感词具有更强的情感指示作用;情感标签特征加强了文本和标签之间的联系。将四种特征融合成三组情感特征:词特征+情感符号特征+词性特征、词特征+情感符号特征、情感标签特征。将构造的三组情感特征首先映射为分布式词向量,然后输入到多通道卷积神经网络中提取情感特征,最后完成情感分类。将该模型分别与选取的情感分类模型在中英文数据集上完成粗粒度和细粒度情感分类实验,结果表明该模型在准确率、宏平均、微平均上均优于所选取的对比模型。