基于深度学习的中文文本蕴含识别技术研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:baochangjingmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本蕴含识别旨在判断两段文本间的语义逻辑关系,推理过程涉及到句法分析、词汇理解、逻辑推理、社会经验和常识等多个方面的知识,是一项判断计算机是否在一定程度上“理解”文本语义的具有挑战性的研究任务,也是自然语言处理领域较为重要的基准任务之一。近年来基于深度学习的方法在文本蕴含识别研究领域得到了广泛应用,但是针对中文文本蕴含识别的研究工作仍然较为缺乏,所提出的方法也存在许多不足:如模型对于句子深层语义的提取仍然有限,复杂的外部知识较难融合,推理过程不遵循单向原则等。因此,本文使用深度学习技术,针对中文文本蕴含识别研究所存在的一系列问题,进行探索和研究。主要的研究工作总结如下:第一,针对自注意力机制捕获复杂句子语义能力不足和中文文本蕴含识别数据集存在规模小、噪声大的问题,提出了一种融合语义角色和自注意机制的中文文本蕴含识别方法。该方法在Transformer的结构基础上创新性地把句子的浅层语义角色标注结果与自注意力机制相结合,提升了自注意力机制捕获句子语义的能力,并且使用大规模预训练语言模型BERT-wwm-ext,能够显著提升模型在小规模数据集上的识别性能。第二,针对复杂的外部知识较难融合以及语义角色标注信息编码不完整的问题,提出了一种基于知识图网络的中文文本蕴含识别方法。该方法首先使用图注意力网络分别编码ConceptNet知识网络和语义角色标注信息,然后对图编码结果依次进行局部推理和全局推理,最终融合特征得到关系类别。实验结果表明,图注意力网络能够有效地将ConceptNet的复杂结构编码融合于文本蕴含识别模型,提升模型基于外部知识的常识推理能力,并且图注意力网络能够更完整地编码复杂语句的语义角色信息,从而提高模型的整体识别性能。第三,针对文本蕴含识别模型缺乏单向推理能力以及复杂度高的问题,提出了一种基于单向深度融合的中文文本蕴含识别方法。该方法从文本蕴含的本质特点出发,通过单向推理结构模拟前提句推理假设句的过程,并且不需要以往模型中所使用的大量对齐机制以及密集连接等部分。实验结果表明,该方法不仅能够有效提升中文文本蕴含识别性能,而且可以加快模型的训练速度。
其他文献
深度递归脉冲神经网络(Deep Recurrent Spiking Neural Network,DRSNN)模拟人脑的多层结构,对数据从低层到高层渐进地进行特征提取,进而提高了对复杂时空信息的处理能力。然而,由于递归脉冲神经网络复杂的层次结构和内在的非线性机制,构建高效的基于脉冲序列编码的深度学习方法非常困难。基于以上描述,本文使用递归脉冲神经机(Recurrent Spiking Neural
青光眼是一种会导致不可逆转视力丧失的眼科疾病。因此,早期筛查可以尽早发现疾病,这对于尽早治疗以保持视力健康和维持生活质量至关重要。然而,由眼科医生进行的人工诊断耗时且昂贵,并不适合大规模人群的筛查。视盘视杯自动分割可以获取评估青光眼所需要的一些临床数据,缓解人工评估耗时且昂贵问题。传统的方法主要是基于颜色、条纹等人工提取的特征,缺乏足够的辨别表示能力,容易受到病灶区域和低质量对比的影响。深度学习的
作物生产水资源消耗的定量评价具有高度的空间尺度依赖性,且随着空间尺度的变化产生不同的强度和效果。作物生产水足迹被视作科学精准全面的农业用水评价指标,相关评价研究已经涉及各个水资源管理中常用的空间尺度,但是各研究都独立于某个特定的空间尺度,对于用同一研究方法下的同一作物,同一地区,同一研究时段,不同的研究之间常常出现研究结果不同的现象,导致研究结果最终难以有效地用于农业水资源相关的决策。农业用水需要
捻转血矛线虫(Haemonchus contortus)是寄生于反刍动物胃肠道的优势线虫之一,宿主范围广泛,可以寄生于绵羊、山羊、牛、骆驼等反刍动物,在一些感染严重的地区,捻转血矛线虫的感染率可高达100%,其主要以反刍动物皱胃的毛细血管中的血液为食,严重时会导致宿主死亡。捻转血矛线虫在全球广泛存在,由于其致病性和繁殖力强的特点,在多个地区都造成了大范围的流行,这给全球羊养殖业都带来了巨大的经济财
精子中携带的RNA对发育的影响越来越受到人们的关注,而在人和小鼠的相关研究中,研究人员主要把目光集中在父系跨代遗传——环境和疾病等原因会诱导精子中的RNA发生改变并把这种变化通过受精带给后代。长非编码RNA(Long non-codingRNA,lncRNA)既不同于mRNA能够编码蛋白,也不同于其他的小RNA具有较为明确的作用机制,其功能较为复杂。本研究将关注点放在奶牛精源性的lncRNA,通过
皮下脓肿是羊的常见皮肤病之一,该病在全国广泛流行,其病程长,传染性强,该病可导致羊只消瘦、抵抗力下降,严重影响着养殖效益。环境中致病菌的存在及羊皮肤完整性被破坏是该病的主要病因,给羊皮下脓肿的预防与治疗造成极大的困难。近年来关于羊皮下脓肿病原菌研究报道显示,羊皮下脓肿致病菌主要为伪结核棒状杆菌(Corynebacterium pseudotuberulosis,C.p)和金黄色葡萄球菌(Staph
目的:在规模化猪场母猪的实际繁殖过程中,影响母猪繁殖性能的因素有很多,如管理不当、环境异常和营养不良等因素都能降低母猪的繁殖性能,在母猪繁殖过程中发情迟缓、异常或不发情,母猪分娩时产程、恶露持续时间过长和胎衣不下造成母猪产后乳房炎、子宫内膜炎等疾病的多发,这一系列的问题使得母猪淘汰率增高和使用年限的减少,给猪场造成了一笔不可估计的损失。为解决这些在实际生产中所存在的问题,本试验结合母猪的生殖特点,
强栅栏覆盖问题作为无线传感器网络中一个重要的研究方向,主要目的是对感兴趣区域内发生的事件进行有效监控。目前针对构建强栅栏覆盖的研究大多在二维平面上进行,这是一种理想化场景,不适用于更加复杂的三维真实应用场景。此外,由于传感器节点能量有限,强栅栏覆盖网络在一定时间后中会出现栅栏间隙,导致监控目标事件信息不准确。因此,本文针对三维强栅栏覆盖的构建和三维强栅栏覆盖间隙修复等方面的问题做更深一步的探讨,主
酰胺醇类抗生素主要包括氯霉素(CAP)、甲砜霉素(TAP)和氟苯尼考(FF),因它们较好的药代动力学和抗菌特性,常被用于畜牧生产和水产养殖中,但酰胺醇类部分药物残留于动物性食品中会直接威胁人体健康或使环境中耐药菌增加。随着各国对酰胺醇类药物残留监管力度的增加,探索更加精确、灵敏及高效的药物残留检测方法已成为大势所趋。其中免疫分析检测技术因其特异性强、灵敏度高、操作简便等优点常用于检测动物性食品中酰
猪流行性腹泻病毒(PEDV)是引起猪流行腹泻(PED)的病原,20世纪70年代PEDV在欧洲被首次发现,随后在世界范围流行。2010年,我国由于PED造成近100万头仔猪死亡,使养猪业遭受严重损失。猪是PEDV的唯一自然宿主,各品种和年龄的猪均可感染,但以仔猪易感性高、症状最为严重,发病仔猪病程7 d左右,表现为腹泻、呕吐、严重脱水等症状,最终衰竭而死,哺乳仔猪病死率达100%。对PED尚没有特异