论文部分内容阅读
随着互联网技术的发展,人类社会正迈进高度智能化和信息化阶段。文本作为凝练的信息载体,一直都是人们信息交流的主要媒介。目前互联网上积累了海量文本数据,其中包含了人们对商品、服务各方面的情感倾向。研究文本中的情感倾向能够帮助商户或服务提供方做出相关决策,具有重要商业价值和学术研究意义。近年来,文本方面级情感分析(Aspect-based Sentiment Analysis,ABSA)备受学者们的关注,其旨在分类出文本在不同方面上表达的情感倾向,更加贴近实际应用。根据方面的表述方式,ABSA可分为:方面词情感分析(Aspect-term Sentiment Analysis,ATSA)和方面类别情感分析(Aspect-category Sentiment Analysis,ACSA)。ABSA的传统解决方法通常为基于情感词典方法和基于特征提取的机器学习方法。基于情感词典方法的性能非常依赖于词典的质量,基于特征提取的机器学习方法需要繁重的特征工程。针对传统方法中的问题,深度学习方法可通过设计良好的模型来自动学习、提取与任务相关的特征,并突破传统方法的性能瓶颈。因此,本文主要研究基于深度学习相关模型的方面级情感分析问题,并研究模型在实际场景中的应用。本文主要的工作和成果如下:(1)提出一种基于混合神经网络的方面词情感分析模型,解决方面词情感分析中的特征提取不充分问题。该模型通过混合LSTM-Attention(Long Short Term Memory-Attention)特征提取模块和卷积神经网络特征提取模块来提取文本中的特征,从而同时利用文本的全局和局部情感语义。通过在SemEval2014Task4相关数据集上进行实验,该模型在Laptop和Restaurant领域数据集上分别达到74.7%和79.9%的准确率,优于同类型基线模型,实验结果表明了混合神经网络的有效性。(2)提出一种基于 BERT(Bidirect i onal Encoder Representation from Transformers)的改进模型和长文本截取策略,应用于AI Challenger 2018中文数据集,提升粗、细粒度方面类别情感分析的性能。该数据集中的文本为段落级别的长文本,并且一段文本包含多个细粒度方面的情感倾向,为多标签分类任务。本文首先在BERT模型的微调结构上增加了额外的注意力层,将BERT模型的输出编码层中的所有特征进一步抽取和利用;然后使用BERT模型中的句子对(sentence-pair)输入方式来处理方面类别情感分析,将多标签分类任务转化为多类别分类任务。针对长文本冗余的问题,本文在数据预处理上提出了一种基于文本筛选网络(TFN)的文本截取策略,用于选出长文本中与细粒度方面相关的评论句,从而降低长文本的冗余性和噪声的干扰。对比实验结果表明了 TFN的重要性和BERT改进模型的优越性。(3)利用BERT改进模型设计了面向线上餐饮评论情感分析的Web应用。该应用能够获取线上商户的餐饮评论,并在后端利用BERT改进模型进行实时细粒度情感分析,最后将结果进行处理并生成报表展示在前端界面中。