论文部分内容阅读
随着互联网技术的发展,越来越多的民众乐意在社交媒体上发表自己的见解。围绕某个争议话题,用户的讨论交互形成了论辩。对论辩文本进行分析的论辩挖掘研究目的是从非结构化的论辩文本中自动提取论点、论据及其之间的逻辑关系。面向社交媒体文本的论辩挖掘研究可以自动发现用户论点,还可以帮助理解用户持有自己论点的理由,因此具有重要的学术和商业价值。现有的论辩挖掘方法主要包括基于特征工程机器学习的方法和基于深度学习的方法。基于特征工程机器学习的方法一般采用人工构建和筛选的特征来表示论点或论据,这些方法往往过程繁琐,同时也难以很好地建模论辩结构。基于深度学习的方法能够自动提取论辩文本的深层语义特征,但多数方法都将论辩挖掘的各个子任务独立分析,忽略了子任务之间的内在联系。针对上述问题,本文首先研究将论辩指示词信息引入注意力层次网络来有效识别论辩部件的方法。在此基础上,研究论辩部件识别和关系抽取的联合分析方法。本文首先研究结合论辩指示词信息和注意力层次网络的论辩部件识别方法。通过在注意力层次网络的基础上引入论辩指示词信息,设计实现了结合论辩指示词信息的注意力层次网络模型。该模型中的注意力层次网络能够有效建模文档的篇章信息,而引入论辩指示词信息则帮助模型捕捉到论辩部件的上下文关联,有助于提高模型在论辩部件识别任务上的性能。在两个论辩挖掘公开数据集Persuasive Essays(PE)和Microtexts(MT)上的实验结果显示,结合论辩指示词信息的注意力层次网络模型相较于多个基线方法取得了性能上的明显提升,在两个数据集上的论辩部件识别F1值分别提高了1.4%和0.8%。考虑到论辩部件识别任务和论辩关系抽取任务之间存在的紧密联系,本文进一步研究论辩部件识别和关系抽取的联合分析方法,提出了一种基于多级共享模式的损失函数权重自调节多任务学习框架。该框架首先通过结合论辩指示词信息的注意力层次网络建模输入文档,然后利用多级共享的模式对论辩部件识别和关系抽取两个任务进行联合学习,最后使用基于同方差不确定性的损失函数权重自动调节策略在训练过程中动态调整损失函数权重。在PE和MT数据集上的实验结果表明,本文提出的多任务学习框架能够同时提升论辩部件识别和论辩关系抽取两个任务的整体性能,其中在两个数据集上的多任务宏平均F1值分别提高了1.3%和1.8%。