基于预训练语言模型的实体关系抽取方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:juejiang12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,新闻文章、研究出版物、博客、论坛和社交媒体等媒介产生了大量的文本数据,这些非结构化的文本数据通常隐藏着许多重要信息,抽取相关有用的信息,并实现数据的结构化表示,对知识图谱、搜索引擎和问答系统等自然语言处理(Natural Language Processing,NLP)应用具有重要的价值,实体关系抽取(Entity Relation Extraction,ERE)作为信息抽取(Information Extraction,IE)领域的一个子任务,旨在从非结构化的文本数据中获取实体之间的语义关系,广泛地应用在民用领域和军事领域。传统的实体关系抽取方法因抽取规则和手工特征对先验知识要求较高,限制了相关模型的性能。近年来,基于预训练语言模型的方法具有良好的特征表示能力,在实体关系抽取领域获得了巨大的成功,已成为自然语言处理领域的研究热点,逐渐引起国内外研究人员的广泛关注。本文以XLNet和BERT(Bidirectional Encoder Representations from Transformers)预训练语言模型为基础,针对文本表示过度依赖实体相关信息、“Other”类样本与其他类型样本具有相似特征且本身特征并不聚簇、缺乏高质量人工标注数据集等问题,提出了相应的解决方案。本文的主要研究内容和成果如下:(1)针对文本表示过度依赖实体相关信息的问题,本文基于XLNet预训练语言模型搭建实体关系抽取基线模型,并引入输入文本两实体的最短依赖路径作为关系信息补充,在Sem Eval-2010 Task 8数据集对所提模型性能进行评估。仿真与实验结果表明,加入最短依赖路径信息能够有效地提高模型的文本表示能力,从而提升了实体关系抽取性能。(2)针对“Other”类样本与其他关系类型的样本具有相似特征,且本身特征并不聚簇的问题,本文将分布外检测的方法应用到实体关系抽取任务,重点研究基于自编码的分布外检测方法和基于距离的分布外检测方法对实体关系抽取性能的影响。仿真与实验结果表明,基于距离的分外检测方法能够有效区分“Other”类样本和其他关系类型样本,提升了模型的整体性能。(3)针对缺乏高质量人工标注数据集导致模型性能受限的问题,本文基于BERT预训练语言模型使用掩码语言建模任务对数据集进行增强,在训练过程中加入了样本标签的语义,对模型替换词语进行了约束,同时在增强过程中使用了不同的替换策略选择要替换的词语,在最大限度保留核心语义的情况下增加语言表达的多样性。实验结果表明,选择不同的替换策略以及阈值会对模型造成不同的影响,使用替换(2型词语的增强数据集进行训练可以有效地提高模型的整体性能。
其他文献
狼疮性肾炎是临床上公认的肾病科难治性病症,王耀献教授结合多年临床经验,认为伏热是该病的重要进展因素,认为应该从伏热的角度论治狼疮性肾炎,应以“伏热气郁,肾虚津耗”为核心病机,“清热理气,补肾生津”为核心治法,并且结合肾脏各时期不同的病理表现以及疾病的活动程度,将狼疮性肾炎分两期论治,活动期清透伏热、凉血疏肝,缓解期滋水涵木、以防来复。
期刊
随着信息技术的发展,人工智能逐渐受到广泛关注。作为人工智能领域的重要研究课题之一,机器学习中的无监督学习由于不需要标签先验作为指导,在一些难以人工标注的问题上能够取得较好的效果,具有一定的应用价值。本文介绍的聚类分析方法就属于无监督学习范畴,该类方法基于数据集内部的相似关系对样本进行划分,不需要提供标签先验作为指导。早期聚类方法虽然在低维数据上具有很好的聚类效果,但是在处理高维数据时由于维数灾难问
学位
不同环境下的复合散射分析是目前研究的热点问题。起伏地势环境是一种常见的陆地环境,它是由多种随机粗糙面组成的模型,会产生比较复杂的地面散射杂波,这对军用雷达探测、电磁目标隐身和民用卫星遥感等领域提出了挑战。本文使用sigmoid边界过渡函数建立了一套起伏地势的理想导体简化模型,仿真分析其散射特性,并以起伏地势为背景,分析常见目标的复合电磁散射特征,为实际应用提供一定的理论基础,为工程应用提供仿真实例
学位
功率放大器作为无线通信系统中发射机的核心部件,其性能的优劣会直接影响通信系统传输信号的质量。近年来,随着无线通信技术的飞速发展,无线通信距离增大,信号带宽变宽,调制方式也愈加复杂,这对发射机中功率放大器的输出功率,工作带宽以及功率回退时的效率提出了更高的要求。本文依托“***卫星射频收发系统的研究与设计”项目需求,针对L波段功率放大器的设计展开了深入的研究。研究内容涉及单级功率放大器、功率合成放大
学位
目标跟踪是计算机视觉领域中一个重要的研究课题,近年来,随着我国城镇化建设的推进以及人民经济水平的不断提高,私家车的保有量与日俱增,为我国的交通系统带来了巨大的压力。因此,智能交通系统的研究成为了当今一大热点。车辆跟踪算法作为智能交通系统的重要组成部分,为系统获取行驶车辆信息提供了可靠的保障。由于城市道路复杂,车辆密集,树木天桥等遮挡物繁多,在城市场景中实现准确的车辆跟踪成为一个巨大的挑战。本文主要
学位
超材料由于其超常电磁特性为操控电磁波提供了新的应用途径,随着吸波器件的不断研究,利用超材料来构建太赫兹吸波体逐渐成为研究热点,目前利用超材料已经设计出了单频带、多频带、超宽带等各种类型的电磁吸波体,随着微纳加工技术的发展,一些太赫兹吸波体也随之被设计出来,但这类吸波体只是无源器件且频率不可调,无法满足通信系统日益增长的应用需求,而且当下设计出来的太赫兹吸波体大部分都是单频带吸收效率高或者是多频带吸
学位
随着遥感卫星技术的快速发展,海量的遥感时序图像不断涌现。由于在土地覆盖图更新和自然灾害风险评估等方面发挥着日益重要的作用,多时遥感图像分类问题引发了学者们的广泛关注。多时遥感图像分类旨在利用现有的有标签的源域图像信息,对无标签的目标域图像进行分类。传统的分类算法中,大多数需要人工标记数据,效率低下,且其所依据的领域自适应方法中还需要满足源域图像和目标域图像分布具有相关性的假设。为了解决上述问题,近
学位
随着遥感技术的发展,获取的高分辨率遥感图像包含愈加丰富的地物信息。如何对遥感图像进行解译获取有价值的信息是急需解决的问题。语义分割能判定图像中每个像素的类别属性,是地物观测分类常用的解译方法,并在农业生产、城市规划、灾害监测等领域发挥着关键作用。目前,基于卷积神经网络的遥感图像语义分割方法快速发展,与依赖手工设计特征的传统分割方法相比,图像中不同对象的分割效果得到显著改善,但由于网络在提取特征时丢
学位
电动车作为新能源车的代表,随着新能源技术的日趋成熟而逐步发展。电力是电动车的动力来源,作为一种清洁能源,与石油相比它不仅价格更低廉而且对环境无污染。电动汽车产业发展过程中,为了提高车辆的性能,车内的电子设备或仪器的丰富度会逐渐升高,这种变化会使车内的电磁干扰问题恶化,超标的电磁干扰甚至会影响乘车人健康。因此研究电动汽车内部各电气模块产生的电磁干扰问题就成为汽车电子领域关键技术之一。针对电动汽车内部
学位
随着计算机技术与信息检索技术的快速发展,互联网已成为人们获取医疗健康知识的主要途径之一,这些知识通常以非结构化或半结构化的形式存在,并且规模庞大、信息良莠不齐。利用传统搜索引擎难以有效获取所需的医学知识,从而制约了医学信息化的发展。因此,如何从海量数据中准确并自动化地提取出用户所需的医学知识成为了医疗信息化领域的研究热点。问答系统是信息检索系统的一种高级形式,它能减少用户在信息检索中的时间消耗,且
学位