融合知识的预训练语言模型阅读理解技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:qin6668
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下主流的阅读理解模型,通常依赖于多头自注意力机制来获取与问题文本相似度最高的答案,其成功的秘诀主要在于预训练语言模型对语言模式相似度的学习能力,而非基于自然语言进行高度的抽象和推理。这也意味着现有的阅读理解模型仅能基于问题表层的信息进行回答,而对于一些需要知识支撑或涉及推理的问题还是难以解决。针对这一问题,本文提出了一种新颖的知识增强图注意力网络(KEGAT),它可利用来自外部知识库Concept Net中的信息丰富原始文本的语义表示,并依据相关子图建模实体间的证据链执行推理。同时,本文还提出了一种知识增强嵌入表示(KEmb)方法,并配合内部共享机制以防止模型对常识过度推理或推理不足。实验表明,该方法相比于基线模型在Com VE子任务B中准确率相对提升15.43%。除此,考虑基于知识图谱引入外部知识所携带大量无关信息会对最终答案的决策造成干扰。本文提出了一种基于动态路由的知识增强方法(Ke Mask Filter),该方法可自动的选择将有益的外部知识注入到合适的网络层中,从而丢弃无关紧要的知识。实验表明,Ke Mask Filter相比于基线模型准确率相对提升1.22%,且相比于未过滤噪声的模型准确率有着明显的提升。此外,考虑实体在图谱嵌入表示及语义嵌入表示间存在本质的差异因而导致相应信息难以融合,本文提出了一种基于异构空间下的特征融合方法(Smooth KeBERT),该方法基于图谱连接关系及Wikipedia中相关实体描述,并结合图注意力网络统一了语义空间表征及符号空间表征。实验表明,Smooth Ke BERT相比于未统一表征空间时模型准确率相对提升0.63%。
其他文献
学位
厌氧膜生物反应器(anaerobic membrane reactor,AnMBR)作为一种应用广泛的有机固体废物处理工艺,利用有机物产生沼气的同时实现剩余污泥的减量化,在技术和经济上具有很大的优势和前景。目前,AnMBR在实际应用中面临诸多技术难题,如厌氧消化性能低、消化残渣处理难、膜污染严重等。共消化是一种简单高效处理有机固体废物的技术,在提升厌氧消化性能、缓解膜污染等方面有极大的应用潜力。基
图像配准和图像分割是医学图像处理中的两项关键技术,在疾病诊断、手术导航、疗效评估等实际医疗场景中发挥着非常重要的作用。传统的医学图像配准和人工分割耗时较长,且对医生的专业水平要求较高。随着医学图像种类和数量的激增,医生的工作负担显著增加,从而导致漏诊和误诊的现象发生。近些年来深度学习的快速发展,吸引了越来越多的研究人员将深度学习引入医学图像配准和分割任务中,利用计算机来辅助医生进行诊断,提高医生的
蓝藻水华一直是全球性重大环境问题,对蓝藻进行环境友好的处理与处置是关系国计民生的重要研究课题。蓝藻富含蛋白质、碳水化合物、脂类等营养物质,蓝藻的高值化再生资源回收利用成为近年来的研究热点。通过厌氧发酵对蓝藻进行资源化利用具备广阔应用前景和实践意义。但蓝藻细胞独特的刚性结构导致厌氧发酵效率不高,为强化蓝藻厌氧发酵效率,需针对蓝藻实行一定的预处理。目前已公开的蓝藻厌氧发酵预处理方法不多,因此,亟需开发
学位
随着半导体技术的迅猛发展,突破物理尺寸的限制变得越来越困难,纳米线环栅已成为5nm以下技术节点的核心器件结构。而可重构场效应晶体管器件(RFET)得益于其自身的结构特点,通过极性栅(Program gate,PG)调控流经沟道内载流子的类型,在一个晶体管内可实现N型导电与P型导电的动态可重构,拓宽了传统晶体管的功能。这样通过RFET的可重构特性,从而可以达到使用较少数目的晶体管去实现更加丰富的逻辑
网络管理机制的核心就是对网络设备进行监控然后根据监控结果发送操作指令。传统的分布式网络管理采用SNMP、Netflow等网络管理方式,在应对不断增长的网络规模下已逐渐不满足要求。例如在数据中心网络中,传统的网络管理方式无法适配数据中心网络大规模、低时延、不可预期等特征。在软件定义网络(SDN)架构下,转控分离和数据面可编程的出现,使得有能力实现低时延监测的带内网络遥测(INT)发挥出了优势。所以,
混成系统是同时包含连续状态和离散状态的动态系统。连续部分通常模拟物理环境的相互作用,而离散部分通常模拟控制系统的运行。计算和控制的结合会导致非常复杂的系统设计,因此混成系统常被应用于航空航天、汽车工业和工厂自动化设计中。到目前为止,混成系统中使用了多种形式化建模方法:混合自动机、混合Petri网、Modelica、Zelus等。对于混合系统的形式化验证,可以使用多种工具,如Hy Tech、PHAV
自股市诞生之后,股票预测问题就受到了来自金融领域和计算机领域的众多研究者的关注。随着深度学习的发展,历史股价、新闻、论坛等数据被各种各样的深度学习模型运用于股票预测问题。然而,其仍然面临着诸多难题,例如财经新闻数据大、涉及面广,当财经新闻中未直接出现上市公司名称时,难以预测受该新闻影响的上市公司,即财经新闻的相关公司挖掘问题;上市公司之间存在复杂多样的关系,公司间相关性建模困难等问题。针对上述挑战
随着人工智能的高速发展和移动设备的普及,各种基于深度学习的应用进入我们的生活,深度学习的成功离不开神经网络对数据的高表征能力,离不开庞大且丰富的数据集。其中,分布式数据处理和分布式机器学习的作用日益凸显,需要多个参与方协作的需求不断涌现。然而,在实际场景中,很多数据由于隐私安全和保密政策,数据拥有者不愿意或不允许将数据分享出来。并且,将数据聚合到一起训练模型会产生高昂的通信成本和存储成本。由此,联