论文部分内容阅读
随着互联网的日益普及,越来越多的用户喜欢在网络媒体上发表观点并进行交流。这些观点和交流通常以载有情感色彩的文本形式呈现,对这些文本的情感进行分析可以帮助提升网络的精准营销、舆情的有效监控等。与英文文本情感分类相比,中文文本情感分类目前在文本情感分类研究中关注较少,并且准确度一般较低。因此,中文短文本情感分类具有较大研究价值。本文通过研究词向量、网络结构、训练方法和损失函数对于深度学习文本分类模型的影响,训练多个深度学习模型,通过模型融合提升中文短文本情感分类的准确度。首先,本文分析词向量对于深度学习文本分类模型准确度的影响,发现深度学习文本分类模型用预训练的词向量可以获得较高的准确度。鉴于textCNN(Convolutional Neural Network)网络中最大值池化(Pooling)会丢失重要特征信息,本文对其池化方法进行了改进,得到了K-Max-CNN网络;同时借鉴text CNN网络的特点对DCNN(Dynamic CNN)网络进行改进,得到了四种改进的DCNN网络,并通过实验验证:与改进前的网络相比,K-Max-CNN网络和四种改进的DCNN网络均能获得更高的准确度。其次,针对深度学习训练结果不稳定的问题,借鉴递进学习的思路提出“先难后易”的递进学习训练方法,并通过实验验证了这种训练方法可以使训练结果更稳定,并训练得到准确度更高的模型;利用本文改进的焦点损失函数,避免大量的负样本对模型训练的负面影响,使模型训练过程中更加关注重要的样本,从而提升了模型的准确度。最后,利用预训练的词向量和改进的网络模型,并在多类别情感分类的深度学习模型中使用本文改进的焦点损失函数,采用“先难后易”的递进学习训练方法,训练多个深度学习模型,并进行模型融合建立文本分类模型,分别应用于主客观情感、多类别情感和情感极性这三种中文短文本情感分类问题中。实验结果表明本文提出的基于深度学习多模型融合的中文短文本情感分类方法所建立的模型与对比模型中准确度最高的模型相比,准确度分别提升了0.79%、2.85%和2.05%。