论文部分内容阅读
随着互联网的迅速发展,越来越多的用户在互联网平台上发表大量的评论。方面级情感分类的目的是预测文本在不同方面的不同情感,目前主要采用的是有监督学习方法,依赖大量有标签样本,因此如何利用无标签样本进行半监督方面级情感分类至关重要。本文以评论文本为研究对象,首次基于变分自动编码器进行半监督方面级情感分类研究,主要工作包括如下两个部分:(1)针对现有的方面级情感分类模型通常使用单个向量来表示每个词,而单个词向量无法区分一个词表达的不同方面和情感的问题,本文提出基于方面-情感词和注意力机制的循环神经网络模型(简称ASWAR)。该模型首先将主题视为方面,采用联合情感主题模型(JST)得到词的方面情感分配,然后在主题词嵌入模型(TWE)上以词-方面分配为输入同时考虑到词的方面和上下文来训练得到特定方面的词向量,并根据词-情感分配给每个词确定一个one-hot形式的情感向量,最后在原有基于注意力机制的LSTM模型(ATAE-LSTM)的基础上,引入每个词特定方面的词向量和情感向量,使得模型能够同时识别词的不同方面和情感,并在LSTM单元和GRU单元的循环神经网络上使用注意力机制来获取文本中对于给定方面重要的部分,建立了词的方面和情感与给定方面的相互依存关系,从而在一定程度上提高了方面级情感分类的准确率。(2)现有的半监督学习方法多基于生成模型,但是当模型假设与数据分布不一致时,模型的准确率较低。针对这个问题,本文提出基于变分自动编码器的半监督方面级情感分类模型(简称AL-SSVAE)。该模型在变分自动编码器的基础上,添加了一个方面级情感分类器,并将文本给定的方面信息引入到编码器和解码器中。AL-SSVAE模型首先使用(1)中LSTM单元的ASWAR模型(ASWA-LSTM)作为分类器并对文本进行编码,然后在解码器中使用特定方面的词向量表示词并连接情感向量,且在每一步引入标签和方面向量来重构输入,从而使模型训练时具备识别词对应的方面和情感的能力,能够准确地捕捉到丰富的全局语义信息和情感特征,实现了文本的半监督方面级情感分类。