论文部分内容阅读
随着互联网与移动互联网的飞速发展和社交媒体的广泛应用,越来越多的网络用户可随时随地浏览热点新闻报道,并在网络中发表和交流观点,表达立场与情绪。因此文本情感分析研究吸引了广泛的研究兴趣。现有的文本情感分析通常只对文本做出倾向极性分析,但无法深入挖掘文本对特定主题目标的立场倾向。而在很多应用场景下,用户关注更多的是文本表达的立场倾向,而不仅是文本本身情感。因此,针对特定主题目标的社交媒体文本立场分析研究具有巨大的科学价值与商业价值。 现有文本立场分析的研究方法主要是基于传统语义特征的机器学习与深度学习的方法。基于传统语义特征的方法构建成本较高,迁移也较为复杂;基于端到端的深度学习方法通常未考虑主题目标信息。针对现有方法存在的不足之处,本文从以下两个方面展开对文本立场分析的研究。 针对现有文本立场分析往往缺乏考虑主题目标信息的问题,本文研究一种以条件编码的方式结合主题目标信息与文本信息的文本立场分析方法。该方法使用编码主题目标信息作为先验知识来指导立场分析中的文本信息编码。结合文本立场分析语料的特点,进一步改进了条件编码模型。在SemEval2016英文立场分析数据集和NLPCC2016中文立场分析数据集的实验结果显示,本文提出的基于条件编码的立场分析方法的微平均F1值分别为0.671与0.698。有效提高了文本立场分析的性能。 考虑到主题目标对文本信息内容存在不同侧重点的特点,本文将文本立场分析中的主题目标信息作为注意力机制的导向,给予文本信息不同权重的关注度,并在其中挖掘立场分析的模式。由于注意力机制与条件编码分别从“编码”与“解码”两个不同角度引入主题目标信息,本文提出了一种结合注意力机制与条件编码神经网络的文本立场分析方法。在“编码”过程中条件编码利用主题目标信息指导文本信息的编码,在“解码”过程中注意力机制根据主题目标信息在编码信息中抽取与立场分析相关的分类模式。在SemEval2016英文数据集和NLPCC2016中文数据集的实验结果显示,微平均F1值分别为0.689与0.716。对比两个数据集评测任务的最优系统,微平均F1值分别提高了1.08%和0.61%,显示了结合注意力机制与条件编码神经网络的方法在社交媒体文本立场分析任务上的有效性。