论文部分内容阅读
为了能够有效地从非结构性的文本数据中挖掘知识,研究将自然语言形式化为计算机输入信号的表示方法是文本意见挖掘任务的重点。基于深度学习的表示方法具有很强的特征学习能力,由该方法生成的文本表示具有连续、稠密和低维度的特征。在深度学习中,LSTM(Long Short-Term Memory)是长短期记忆网络,是一种特殊的循环神经网络模型(Recurrent neural network,RNN)模型。它不仅能够对具有时序特征的输入信号进行建模,还能够避免RNN在文本建模过程中发生梯度消散(或梯度爆炸)的问题。基于标准LSTM的表示方法对所有的输入特征一视同仁,并不能明显地表现出不同特征对特定研究任务的贡献程度,更为重要的是,该方法更侧重于学习文本上下文语义信息,而对上下文结构信息并没有很好的进行学习。本文所做的工作如下:1)在对词语间上下文依赖特征信息进行建模的过程中,由于基于标准LSTM的文本表示方法未利用向量化的词性信息去强化文本上下文依赖信息,所以本文提出了一个基于注意力机制的双向LSTM的文本表示方法。本课题在自采集数据集和来自NLPCC&2014的开源数据集上进行实验,用以验证本方法的有效性。实验结果表明,本方法在两个数据集上所获得的情绪分类效果均优于基准模型。2)在对实体方面和意见文本间上下文依赖特征信息进行建模过程中,由于标准注意力机制缺乏一个特征权重修正的过程,所以本文提出了一个基于两阶注意力机制的LSTM文本表示方法,用于建模实体方面和意见文本间的上下文依赖特征信息。为了测试本模型的有效性,本课题在来自SemEval&2016的开源数据集上进行实验。实验结果表明,本方法所取得的文本意见分类效果优于基准模型。3)在对话题和意见文本间上下文依赖特征信息进行建模过程中,由于基于LSTM的表示方法缺乏从词语层面挖掘话题与意见文本间的依赖信息,所以本文提出了一个基于注意力聚合网络的文本表示方法。本课题在来自于SemEval&2016的英文立场数据集上进行实验,用于验证本模型的有效性。实验结果表明,本模型所取得的文本意见分类效果优于基准模型。