论文部分内容阅读
随着网民参与度的不断增高,互联网成为网民发表观点的集中平台,其聚集了大量表达网民观点的文本,成为宝贵的研究资源。研究网民对公众实体、产品、服务等方面的情感不仅有利于政府机构把握舆情态势并进一步辅助决策,而且具有极高的商业价值。近年来,深度学习在文本挖掘各项任务中均取得一定进展,对于文本情感分析这个文本挖掘中的热点与难点任务,研究如何使用深度学习的基本理论对文本表达的情感进行表示和提取,具有很高的理论意义和应用价值。本文围绕对象级文本情感分析的主要任务,根据不同数据特点,重点从针对微博热点话题数据的实体级文本情感分析和针对评论类数据的方面级文本情感分析两个方面展开研究,主要研究内容与创新点如下:1.提出了面向微博公众实体情感民调的实体级文本情感分析方法。针对微博热点话题数据,定义了面向公众实体情感民调的实体级微博文本情感分析任务,提出了基于序列标记的实体级文本情感分析方法,然后采用循环神经网络及其改进的循环单元进行序列标记,构建了用于实体级文本情感分析的中文微博热点话题数据集。数据统计结果表明采用序列标记的方式将文本中实体与情感联合表示的方法较传统串行方法具有明显优势,实验结果进一步表明基于循环神经网络的序列标记方法结果较传统方法取得了大幅度提高。2.提出了基于卷积循环神经网络的实体级微博文本情感分析方法。针对循环神经网络在邻域特征提取上的劣势,提出了基于卷积神经网络的序列标记方法,探索词的标记与其在文本中的邻域特征的关系;在此基础上提出了基于卷积循环神经网络的序列标记方法,充分利用卷积神经网络和循环神经网络分别在邻域特征提取和序列全局特征提取方面的优势。实验结果表明,在实体级微博文本情感分析任务中,词的标记对词在文本中的邻域特征和文本全局特征均有一定依赖,基于卷积循环神经网络的序列标记方法较两种单一结构的网络效果均有提升。3.提出了基于层次化注意网络的方面级文本情感分类方法。针对评论文本数据,研究方面级文本情感分析两个子任务中最核心的方面级文本情感分类任务。模型采用方面注意层和情感注意层分别表示文本中目标方面对应的方面特征和情感特征,并使用提取的方面特征帮助情感特征的提取,以更好地定位文本中目标方面对应的情感特征,从而得到更好的分类结果。在此基础上对方面注意模式进行了改进,使模型能够在方面级文本情感分类的同时提取文本中的方面词。实验结果表明基于层次化注意网络的方面级文本情感分类方法较已有的基于注意网络的方法具有明显优势,说明提取目标方面在文本中对应的方面特征对方面相关情感特征的提取具有很好的引导作用。4.提出了基于注意网络的方面级文本情感分析方法。根据3中研究的结论,提出了基于注意网络的方面级文本情感分析基本框架,进一步提出了类别相关分布式词向量训练方法,在大量领域相关无监督数据上训练方面相关词向量和情感相关词向量;提出了基于注意网络的方面检测方法,在进行方面检测的同时利用注意网络权重定位方面特征位置;提出了基于方面注意权重引导的方面级文本情感分类方法,使用方面检测中提取的方面特征引导情感特征定位。实验结果表明,类别相关词向量在方面检测和情感分析两个任务上均取得了较普通词向量更好的效果;提出的基于注意网络的方面检测方法在方面检测任务上取得了较已有方法更好的效果;提出的方面级文本情感分类方法在不标记方面词的条件下可以取得层次化注意网络在需要方面词标记时相当的精度。综上所述,本文聚焦对象级文本情感分析,利用深度学习基本理论,重点研究了基于深度学习的实体级微博文本情感分析方法和方面级评论文本情感分析方法中的关键技术,这些关键技术和研究成果对网络舆情态势把握、公众实体情感民调、产品市场分析等工作具有重要的理论意义和应用价值。