论文部分内容阅读
互联网技术的发展使得信息传输的主要载体从报刊等纸质媒介变成了网页等电子媒介,于是在互联网中产生了大量的非结构化文本数据。随着这些数据的指数型增加,信息变得冗余、复杂,需要一种自动化的信息抽取技术来对非结构化文本内容进行结构化解析,使得人们可以快速获取感兴趣的信息。事件抽取作为信息抽取任务的重要子任务,是指从非结构化文本中抽取出特定的事件触发词和该事件的相关参数。论文主要针对事件抽取任务中的触发词抽取进行研究,并实现了事件抽取原型系统,可以自动对新闻文本中的事件触发词进行识别和分类。论文的主要研究内容包括以下3个方面:(1)首先,论文提出了一种基于权重增强图注意力神经网络的事件抽取算法。现有的图神经网络如图卷积神经网络(GCN)、图注意力神经网络(GAT)等在利用邻居节点特征更新中心节点特征过程中,对各个邻居节点分配的注意力权重考虑不全面,为此论文提出一种新颖的注意力权重计算方式,该方式不仅考虑到了中心节点和邻居节点之间的相关性因素,还考虑到了中心节点在句子中的权重因素。并对图注意力神经网络(GAT)模型中独立的多头注意力组织方式进行改进,提出使用级联的多头注意力组织方式,解决了经典GAT模型中的信息丢失问题。实验结果证明,论文中提出的权重增强图注意力神经网络模型的性能要高于目前用于解决事件抽取任务的其他图神经网络模型的性能。(2)然后,论文实现了基于生成对抗网络(GAN)的数据增强算法来提高事件抽取任务的性能。针对传统数据增强算法存在的预定义规则复杂的问题,论文使用了一个简单的预定义规则发现大量潜在数据,并使用预训练好的分类器对潜在数据进行标注生成含有噪声的数据,然后使用生成对抗网络对这些噪声数据进行筛选,得到一些较为可靠数据作为增强数据,用于解决增强数据噪声大的问题,最后用这些数据扩充训练集并重新对分类器进行训练。实验结果表明,通过扩充的训练数据训练的分类器,和只用原始的训练集训练的分类器相比,前者分类器模型参数泛化能力更强,在测试集上的抽取性能更高。(3)最后,论文基于JQuery、Django等框架设计实现了事件抽取原型系统。系统主要包括文章管理、认证授权管理和事件分析等模块,实现对文章中的事件触发词进行识别和分类、对用户信息和权限信息进行管理的功能,经过设计实现与测试,事件抽取原型系统满足了基本的功能需求并达到了预期目标。