基于双向多维注意力机制的共指消解模型研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:sanrenET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学发展和行业应用的实际需要,迫切要求在更深层次上对篇章进行理解。近些年伴随着自然语言处理研究任务的深入,针对短文本的自然语言处理技术越来越成熟。共指消解作为自然语言处理的关键任务之一,受到国内外学者的广泛关注。本论文拟针对篇章级别的共指消解任务,即指在同一篇文档中,对于任意两个表述,如果它们指向现实世界中的同一实体,则称这两个表述具有共指关系。当多个表述指向同一个实体时,则这多个表述构成一个共指链,在同一个共指链中任意两个表述都存在共指关系。目前,在现有的众多共指消解模型中,Lee提出的基于端到端共指消解模型大大减少了人的工作量,在不使用额外工具的同时利用端到端的神经网络技术有效的提高了共指消解模型的性能,这种方法使得该模型成为共指消解任务的经典模型之一。本论文通过分析该模型在共指消解任务中的优势和特点,并与其他共指消解模型进行对比分析,最终选用该模型为本论文的基线模型。本论文研究的任务就是通过捕捉单词含义和上下文语境,挖掘文档中存在的共指关系,在英文篇章中构建共指消解模型,帮助机器更有效地理解和分析文本。论文结合深度学习理论和自然语言处理技术,从数据集的语言特点出发,以端到端共指消解模型为基线模型分别从单词类型、单词特征和上下文特征探索表述之间的联系,并分析可改进的方案。提出端到端共指优化模型,即加入一元特征,减少数据稀疏性;引用具有更加强大特征提取能力的Bert预训练语言模型,给编码器提供更好的向量表示,获得含有更丰富的语义知识的向量,以解决一词多义问题;同时重新设计候选先行词的得分函数和注意力机制的对齐函数,以获得更多的语义信息进而提高篇章级共指消解模型的性能。论文提出基于双向多维注意力机制的共指消解模型,即在端到端优化模型的基础上添加文档表示层。使用双向LSTM和自注意力机制充分捕捉短语之间的语义依赖性,生成句子表示。使用双向多维注意力机制捕获句子间的语义特征,生成文档表示,从而充分考虑篇章中的局部特征和全局特征,构建精细、准确的共指链。通过多组实验探讨了LSTM的层数、预训练语言模型的选取和添加一元特征等改进方案对共指消解模型性能的影响。并通过实验证明本论文提出的模型相比基线模型和目前的较为经典的共指消解模型,在效率和性能上均有所提高,其中准确率和召回率都有较为显著提升。
其他文献
蜂蜜为我国传统的副食品,为保护消费者的权益、加强对市场蜂蜜质量和蜂蜜掺假作出准确判断,现代检测技术的研究具有主要的现实意义。本研究的主要内容和结果如下:改进液相色
背景食管癌是常见的消化系统恶性肿瘤之一,根据WHO统计,我国食管癌病死人数每年约20万,占世界的一半。肿瘤的转移是食管癌患者预后不良和死亡的主要原因。RIOK3是非典型丝/苏氨酸蛋白激酶RIO激酶(Right Open Reading Frame Kinase)家族成员之一。RIO激酶在细胞信号传导和肿瘤的发生和转移中发挥重要作用。目前发现RIOK3与乳腺癌、胰腺导管腺癌的发生进展关系密切,而RI
码的重量分布多年来一直是一个有意义的研究课题。近几十年来,许多学者已经构建并广泛研究了具有小重量的线性码;而循环码作为一类非常重要的线性码,因其具有良好的代数结构
七鳃鳗(Lampetra japonica)是最原始的脊椎动物之一,通常以宿主鱼类的血肉为食,推测其口腔腺分泌液可能含有阻止血液凝固的活性肽或蛋白质组分。前期研究结果表明七鳃鳗口腔
连续搅拌反应釜(Continuous stirred tank reactor,CSTR)是一种复杂的化学反应器,其因投资成本低、换热能力强和产品质量稳定等优点,广泛应用于石油化工、生物发酵、化学制药
本文分为三部分,主要有以下内容:第一章介绍了半群,完全正则半群,半格不可分半群的一些基本概念和引理以及本文中涉及的符号.第二章讨论了么半群的半格,并证明了一个半群是一些么半群的半格当且仅当它是这些幺半群的拟强半格.同时还讨论了半格不可分半群的一些基本性质及应用,并给出了左群的一种等价刻画.最后讨论了一类Rees矩阵半群的基本半格.第三章定义并刻画了具有正则半格分解的半群间的好同态.
柞树(栎属,Quercus)是柞蚕的主要饲料植物,同时在经济、生态、文化和科学研究上均具有重要价值。全世界柞树有450种,广泛分布于北半球的亚洲、欧洲、北美洲和非洲。柞树种间广泛存在的杂交造成了很多共同的种间形态特征和种内形态变异,使得该属的分类异常困难,植物学家对该属植物分类和进化的研究一刻都没有停歇过。叶绿体基因组序列具有较强的保守性等特点,是植物系统发育研究的理想标记。截至2020年3月,在
现有文献中对溶气原油发泡特性的讨论较少;对原油泡沫的稳定与消除特性缺乏深入、系统的研究。因此,本文针对以下方面进行实验研究:降压过程中原油泡沫稳定性影响因素;原油泡
背景外泌体是包含了复杂RNA和蛋白质的小膜泡,其中肿瘤细胞分泌的外泌体中的m RNA携带了大量肿瘤细胞遗传信息,因此对外泌体中特异性m RNA的分析,有望找到肿瘤诊断的新型分子标志物和治疗靶点。本研究通过高通量筛选与生物信息学方法探讨肝细胞癌(HCC)患者血清外泌体m RNA的表达特征及其潜在功能。目的探索HCC患者血清外泌体m RNA与正常人之间的生物学差异,为寻找新的HCC诊断分子标志物和治疗
新闻是对新近发生事实的报道,报道了当下社会所发生的一切,研究新闻文本对于人们关注社会热点的研究、经济形势的研究、社会发展状态研究等领域都有着十分重要的作用,新闻报道也是人们获取社会信息的重要信息来源。近年来,随着网络平台的兴起以及自媒体大量的出现,使得网络新闻的数量呈爆炸式增长,面对大量错综复杂的新闻,人们想要从中获取新闻热点变得越来越困难,因此从海量数据中挖掘出新闻热点也成为了当下的一个研究重点