基于数据增广与论元表征的隐式篇章关系识别方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户：laoyang2009123456

【摘要】

：

篇章关系识别是浅层篇章结构分析中富有挑战的子任务,其旨在判断同一篇章内的两个文本片段(简称“论元”)间的语义关系。作为自然语言处理领域的一项基础任务,篇章关系识别对

【作者】

：

阮慧彬

【出处】

：

苏州大学

【发表日期】

：

2020年01期

【关键词】

：

隐式篇章关系识别数据增广论元表征主动学习注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

篇章关系识别是浅层篇章结构分析中富有挑战的子任务,其旨在判断同一篇章内的两个文本片段(简称“论元”)间的语义关系。作为自然语言处理领域的一项基础任务,篇章关系识别对上层应用具有一定价值,如基于论元之间的篇章关系生成相应问答对以辅助自动问答任务。宾州篇章树库数据集是英语篇章关系识别领域目前最大的权威语料库,其为篇章关系构建一个三层的语义关系体系。此外,依据两个论元间是否存在连接词,宾州篇章树库将篇章关系识别任务分为显式篇章关系识别和隐式篇章关系识别。目前,显式篇章关系识别仅靠连接词特征即可达到93%以上的准确率,已具备一定实用性。但隐式篇章关系识别性能仍然较低,其由于缺乏显式连接词等线索,更依赖于对论元语义的深度理解。本文针对隐式篇章关系识别任务展开研究,提出一种基于数据增广与论元表征的隐式篇章关系识别方法。具体内容包括下述三个方面:(1)基于数据增广的隐式因果关系识别现有方法通常使用神经网络模型对隐式篇章关系进行分类,其依赖于高质量、大规模的训练语料。然而,宾州篇章树库语料中的隐式篇章关系样例数量较少,导致模型对隐式篇章关系识别性能较差。针对这一问题,前人通常使用连接词构造模板,以挖掘外部显式篇章关系语料,删去其连接词作为伪隐式篇章关系语料。但删去连接词会造成一定的语义改变问题,直接将这类数据加入隐式篇章关系训练集会对神经网络的训练起到误导作用。为了挖掘更高质量的隐式篇章关系语料,基于问题与其答案间的固有关系,本文采用WHY式问答对构造伪隐式因果关系语料,并使用主动学习方法从中筛选高信息量的样例用于扩充隐式因果关系训练集。在PDTB数据集上的实验结果表明,该方法在隐式因果关系上的分类性能优于目前先进数据增强方法,其F1值达到52.19%。(2)基于图卷积神经网络的隐式篇章关系识别方法现有研究通常构建复杂的神经网络模型以提升隐式篇章关系识别性能,但前人往往仅使用论元间的交互信息,而忽略了论元本身的关键信息。针对这一问题,本文提出一种基于图卷积神经网络的隐式篇章关系识别方法。该方法基于预训练语言模型BERT进行微调以对论元进行编码,并将论元特征表示拼接作为图的特征矩阵。同时,对论元表示进行自注意力和交互式注意力分数计算,拼接注意力分数矩阵作为图的邻接矩阵。该方法构造两层图卷积神经网络,根据论元自身信息和交互式信息对论元表示进行更新,以得到有助于隐式篇章关系识别的论元特征。本文在PDTB数据集上进行实验,二分类实验结果表明,该方法在偶然关系和扩展关系上超越目前先进方法,F1值分别达到60.70%和74.49%。同时,该方法在四分类评测中,相较于现有前沿方法,达到了具有竞争力的性能水平。(3)隐式篇章关系识别系统结合前文隐式篇章关系识别方法的研究,本文基于前端框架Vue、Bootstrap和后端框架Tornado搭建了隐式篇章关系关系识别系统。该系统提供四个功能接口,用户输入两个论元并点击篇章关系识别按钮,系统即可结合本文所提基于图卷积的隐式篇章关系识别方法,对两个论元之间的篇章关系进行分类并返回给用户。该系统展示了本文的研究工作,且对其他自然语言处理领域具有一定辅助作用,如通过篇章关系辅助情感分析任务性能的提升。本文从数据增广和论元表征两个方面,通过上述方法在一定程度上缓解了隐式篇章关系数据稀疏问题,以及模型在对论元进行表示时,难以准确学习到其蕴含的语义信息的问题。此外,本文开发了隐式篇章关系识别系统以展示本文研究工作。

其他文献

USP5/c-Maf通路抑制剂的发现及其抗多发性骨髓瘤的机制研究

目的:c-Maf在50%以上的多发性骨髓瘤(Multiple myeloma,MM)细胞中高表达,通过其下游靶基因及与其他信号因子的相互作用促进MM的发生和恶性进展,与MM的化学耐药、临床恶变和不良预后密切关联。我们前期研究表明,去泛素化酶USP5通过稳定c-Maf蛋白从而促进MM细胞增殖和存活,表明USP5/c-Maf轴可能成为多发性骨髓瘤治疗的潜在靶点。本文建立了一个基于USP5/c-Maf的

学位

c-MafUSP5甲苯咪唑多发性骨髓瘤泛素蛋白酶体途径

社交媒体跨平台信息检索和事件预测方法研究

社交媒体的发展改变了用户理解和跟踪现实世界中的事件的方式。在社交媒体上,用户可以上传并分享与这些这些事件相关的内容,例如文本、图像、视频等多种模态的信息。大量的信

学位

社会媒体计算跨平台应用信息检索社会事件主题预测

周期演化区域上的种群动力学模型

本文研究周期演化区域上的种群动力学行为,主要研究区域的周期演化对种群动力学行为的影响.所谓的周期演化区域是指区域随时间周期变化的.首先,本文研究周期演化区域上的Logi

学位

演化区域非负周期解Logistic模型Lotka-Volterra模型

Poly-GR和Poly-PR蛋白抑制自噬小体的生成及其作用机理

目的:研究二肽重复蛋白Poly-GR和Poly-PR对细胞自噬通路的影响,并探索其影响的作用机制。方法:体外培养 HEK 293,HEK 293T,ATG5-KO MEF 以及 ATG5-WT MEF 等细胞系作为工具;用RNAiMax做为转染试剂,转染目的基因的siRNA,构建Beclin1基因缺陷的细胞模型;用Lipofectamine 2000转染质粒,在细胞中过表达相应的目的蛋白,构建细胞

学位

自噬Poly-GRPoly-PRLC3二肽重复蛋白

影响新生儿万古霉素血药浓度的因素研究

目的:监测新生儿万古霉素的血药浓度,分析影响血药浓度的因素以指导临床合理用药。方法:选取2016年9月～2019年5月入住无锡市妇幼保健院新生儿科病房使用万古霉素进行治疗,并纳入标准的患儿43例。采用FLC全自动二维高效液相色谱分析系统进行万古霉素血浆药物浓度测定。在第五次给药前半小时的血药浓度设定为谷浓度,第五次给药结束后一小时的血药浓度设定为峰浓度。谷浓度在10～20μg·mL-1范围内的为用

学位

新生儿万古霉素血药浓度监测(TDM)谷浓度影响因素

富马酸替诺福韦二吡呋酯和托伐普坦抗寨卡病毒活性研究

研究背景与目的:寨卡病毒(Zika virus,ZIKV)是一种虫媒传播病毒,主要通过伊蚊叮咬进行传播。由ZIKV感染引起的疾病大多数都较轻微并且是自限性的,但寨卡病毒感染也有可能造成患者严重的神经和自身免疫系统的并发症,如胎儿小头畸形和格林-巴利综合征(Guillain-Barre syndrome)。目前仍无疫苗和特效药物用于预防或治疗寨卡病毒感染。随着寨卡病毒在多个国家和地区的爆发及传播,急

学位

寨卡病毒富马酸替诺福韦二吡呋酯托伐普坦抗病毒活性

基于LSTM与槽填充的对话管理模型研究与应用

随着机器学习的发展,人机对话领域相关的技术取得极大的突破,近年来,许多成熟的人机对话系统已经实现了产品落地并在人们生活中逐渐普及,如微软小冰、siri以及小度机器人等。

学位

对话系统槽填充对话管理对话状态追踪LSTM

面向子空间复原的低秩编码与表示学习算法研究

真实的视觉数据(如面部图像等)通常可利用低维或低秩的子空间进行表示和特征提取,因此基于低秩编码的子空间学习算法在图像复原、去噪、压缩和分类等领域具有广泛的应用价值

学位

低秩表示与编码子空间复原与聚类特征学习与提取图像分类

基于光纤谐腔的新型MZI型Inter Ieaver的研究

光学波长交错滤波器(Interleaver)是密集波分复用系统中的重要器件之一,可以将一组信道均匀分为奇偶两组信道,实现通信信道间隔增倍,达到提高通信容量的目的。马赫-曾德尔干涉仪型(MZI)波长交错滤波器具有结构简单、易于集成、信道均匀性好、插入损耗小、制作成本低等优点,成为目前制作Interleaver使用最为广泛的一种方案。光纤微环谐振腔为设计结构紧凑的全光纤波长交错滤波器提供了新的思路和方

学位

微环谐振腔光纤耦合器MZIInterleaver光纤光学

超声造影监测丹参干预兔肾缺血再灌注损伤的实验研究

目的:运用超声造影(contrast-enhanced ultrasound,CEUS)技术监测丹参干预兔肾缺血再灌注损伤(renal ischemia reperfusion injury,RIRI)前后肾皮质血流灌注特点,探讨CEUS在

学位

超声造影肾缺血再灌注损伤TIC曲线家兔丹参

基于数据增广与论元表征的隐式篇章关系识别方法研究

与本文相关的学术论文