基于深度学习的事件抽取系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Waaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展使得信息传输的主要载体从报刊等纸质媒介变成了网页等电子媒介,于是在互联网中产生了大量的非结构化文本数据。随着这些数据的指数型增加,信息变得冗余、复杂,需要一种自动化的信息抽取技术来对非结构化文本内容进行结构化解析,使得人们可以快速获取感兴趣的信息。事件抽取作为信息抽取任务的重要子任务,是指从非结构化文本中抽取出特定的事件触发词和该事件的相关参数。论文主要针对事件抽取任务中的触发词抽取进行研究,并实现了事件抽取原型系统,可以自动对新闻文本中的事件触发词进行识别和分类。论文的主要研究内容包括以下3个方面:(1)首先,论文提出了一种基于权重增强图注意力神经网络的事件抽取算法。现有的图神经网络如图卷积神经网络(GCN)、图注意力神经网络(GAT)等在利用邻居节点特征更新中心节点特征过程中,对各个邻居节点分配的注意力权重考虑不全面,为此论文提出一种新颖的注意力权重计算方式,该方式不仅考虑到了中心节点和邻居节点之间的相关性因素,还考虑到了中心节点在句子中的权重因素。并对图注意力神经网络(GAT)模型中独立的多头注意力组织方式进行改进,提出使用级联的多头注意力组织方式,解决了经典GAT模型中的信息丢失问题。实验结果证明,论文中提出的权重增强图注意力神经网络模型的性能要高于目前用于解决事件抽取任务的其他图神经网络模型的性能。(2)然后,论文实现了基于生成对抗网络(GAN)的数据增强算法来提高事件抽取任务的性能。针对传统数据增强算法存在的预定义规则复杂的问题,论文使用了一个简单的预定义规则发现大量潜在数据,并使用预训练好的分类器对潜在数据进行标注生成含有噪声的数据,然后使用生成对抗网络对这些噪声数据进行筛选,得到一些较为可靠数据作为增强数据,用于解决增强数据噪声大的问题,最后用这些数据扩充训练集并重新对分类器进行训练。实验结果表明,通过扩充的训练数据训练的分类器,和只用原始的训练集训练的分类器相比,前者分类器模型参数泛化能力更强,在测试集上的抽取性能更高。(3)最后,论文基于JQuery、Django等框架设计实现了事件抽取原型系统。系统主要包括文章管理、认证授权管理和事件分析等模块,实现对文章中的事件触发词进行识别和分类、对用户信息和权限信息进行管理的功能,经过设计实现与测试,事件抽取原型系统满足了基本的功能需求并达到了预期目标。
其他文献
学位
文章通过分析行业人才需求现状及深圳技师学院珠宝学院的教学资源,提出新开设珠宝首饰智能制造技术与管理专业建设的方案.专业面向首饰数字化研发、首饰智能制造、首饰生产管理岗位群,通过一体化课程体系及全链条校企合作共建完成专业的建设.
如何提高草原丝绸之路“那达慕”文化的传播,讲好中国故事,是“那达慕”文化传播的前提和基础,解决好“看得懂、想参与”的宣传问题,深挖“那达慕”具体竞赛项目的文化内涵,来提高“那达慕”文化的传播效果.传播中坚持全局思维,坚持合作创新,坚持有效传播与融合展现中华民族传统体育文化.以“那达慕”文化为平台和抓手,多措并举融合沿路国家的文化体系,共同构建人类命运共同体.
随着社会的快速发展,各行各业的数据规模日益增大,如何对海量数据信息进行高效的提取挖掘成为了近年来的研究热点。而在各种不同的数据类型之中,图因为具有丰富的拓扑结构和维度信息,在复杂关系数据集建模中有着广泛的应用。在大规模网络数据分析这一领域,Graph OLAP技术和图挖掘技术均已成为基于图数据提供决策支持的重要技术。但是二者的发展过程差别很大,现有的研究很难将他们从根本上加以统一。针对目前的研究和