论文部分内容阅读
互联网数据正在呈指数型爆炸性增长,如何在海量数据中提取感兴趣的信息成为人类的一大挑战。一系列自动化处理任务由此应运而生,其中便包含事件抽取。事件抽取任务是从文本中挖掘与事件相关的重要信息,将非结构化文本转化为足够精简的结构化数据。事件抽取对于文本检索,自动摘要,文本理解等研究领域具有重要意义。该任务可以分解为事件检测与论元角色分类两大任务。本文的研究是基于循环神经网络模型的事件检测。事件检测负责寻找文本中的事件触发词及相应的事件类型,即:对语句中每个词语判断其是否为事件触发词,如果是则需要预测它所触发的事件类别。事件检测任务的结果将直接影响整个事件抽取任务的效果。因此事件检测在事件抽取中至关重要。本文的工作主要包括:(1)详细阐述本文研究工作所参照的基本网络模型,之后详细介绍循环神经网络模型中常见的两类网络结构和注意力机制概念等背景知识,在分析传统模型在词语级别和语句级别上存在的问题的基础上,提出改进方法。(2)在词语级别上,针对存在的事件类型标签重视不足及多分类中类别不平衡问题,引入标签信息层与软性门控机制方案形成词语级事件检测改进模型。标签信息层将事件标签信息语义化,构建待检测词与所有事件标签的语义联系,从中选择语义相近的标签信息成为待检测词的辅助信息,这对少样本情况下的事件检测有较大帮助。软性门控机制方案则是将多分类任务转化为二分类后接细分类的两阶段任务,使模型需要处理的类别相对平衡,并且能够在细分类过程中一定程度上排除非触发词的干扰,门控机制能有效对词语做是否为触发词的二分类判断。该改进模型更加适应于数据样本较少的短文本数据集。实验结果表明了本文模型的有效性。(3)在语句级别上,针对语句内存在事件间相互影响和实体词语在对于待检测词影响未获重视等现象,引入“事件-事件”关系层和“词语-实体词语”关系层形成语句级事件检测改进模型:“事件-事件”关系层模拟语句内事件间可能存在的语义联系,能有效学习同语句中事件间的相互关系;“词语-实体词语”关系层采用定制化注意力机制模拟实体词语对待检测词的影响,能避免其余非实体词语的干扰,有利于进一步提炼信息。该模型则更加适应于语句内可能存在多事件的长文本数据集。实验结果表明了本文模型的有效性。