论文部分内容阅读
随着互联网时代的到来,新闻大门户网站、论坛、社交网站等新兴平台已经成为人们获取重要信息的重要平台。新兴平台产生的数据以文本为主,这些文本信息具有重要的价值。文本情感分析采用算法挖掘文本信息中情感倾向信息。文本情感分析分为三种方式:基于词典文本情感分类,基于机器学习文本情感分类,基于深度学习文本情感分类。本文将文本情感分析分为:长文本情感分析和短文本情感分析。针对上述两种情感分析分别提出自注意力卷积神经网络模型和双层自注意力扩展卷积神经网络。相关研究情况如下所示:(1)构建了自注意力卷积神经网络模型,提高了短文本情感分析精度。该模型用于解决短文本情感分析,首先对短文本做预处理工作,主要完成文本分词和去除停用词的操作。完成预处理工作的词输入到CBOW模型中,将词转化为词向量。将向量化的词通过卷积神经网络提取文本的特征,然后通过双向LSTM层来融合上下词的信息,引入自注意力机制突出情感词的权重,从而提高文本分类的准确性。将该模型通过公开数据集验证,表明该模型短文本分类效果。(2)提出了双层自注意力扩展卷积神经网络模型,提高了长文本情感分析精度。该模型用于解决长文本情感分析,首先长文本预处理工作,同样完成文本分词和去除停用词的操作。长文本序列数据较长,采用并行卷积核方式来增加感受野,提高提取局部特征的范围。提取完成词向量特征后,通过双向GRU网络融合上下词的信息,突出情感词的权重引入自注意力机制。将相同句的词拼接起来,通过双向GRU网络融合上下句的信息,突出表达情感句子的权重,引入自注意力机制。将该模型通过公开数据集验证,表明该模型长文本分类效果。(3)文本情感在现实数据集上的应用。通过爬虫抓取微博中关于华为的相关信息作作为短文本数据集,爬取今日头条中关于美国的新闻作为长文本数据集,使用本文提出的两种模型对文本进行情感分类,从而验证本文提出的两种模型在现实数据集中进行文本情感分类时同样具有有效性和先进性。