基于实体背景描述和对抗训练的远程监督关系抽取研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zexuan123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是自然语言处理的基础任务,远程监督方法可以为关系抽取任务自动构建数据集,缓解人工构建数据集的压力和成本,为自动关系抽取的实现建立基础。然而其强假设的数据集构建方式造成错误标注的问题,引入大量噪声数据,导致较差的模型性能。因此为缓解远程监督中噪声数据问题,一方面从现有知识库引入实体背景描述信息来为模型提供更丰富的输入句子特征。另一方面采用对抗训练提高模型在遇到对抗样本时的鲁棒性。本文针对远程监督关系抽取训练数据集大量噪声的问题及模型鲁棒性较弱的问题进行了研究,论文主要工作如下:(1)针对远程监督关系抽取训练数据集噪声问题,基于REDSand T基础模型设计了引入目标实体背景描述信息的远程监督关系抽取模型,即为REDST-DESC模型。该模型由输入层、句子编码层、句子包编码层和关系分类层四部分组成。输入层构造结构化的输入文本,从Wikipedia以及Wikidata知识库引入目标实体对应的背景描述信息到输入层为模型提供更丰富的输入特征;句子编码层基于BERT预训练模型将输入层实例编码成神经网络可理解的句子表示;句子包编码层将句子编码层输出的句子表示按照目标实体归类到不同句子包中,采用选择性注意力机制来减少句子包内部噪声,构造句子包表示;最后的关系分类层经过Softmax分类器进行句子包所属关系归类。实验结果表明,相比基础模型REDSand T,REDST-DESC模型在NYT-10-enhanced数据集上AUC指标值提高了2%,而在GDS-enhanced数据集上AUC指标值提高了0.8%。(2)针对远程监督关系抽取模型鲁棒性较弱问题,基于REDST-DESC模型设计了引入对抗训练的远程监督关系抽取模型REDST-DFGM以及REDST-DPGD。该模型由输入层、句子编码层、句子包编码层、关系分类层以及对抗训练层五部分组成。前四层与REDST-DESC模型一致,模型的对抗训练层基于FGM以及PGD的对抗训练原理进行训练,在训练过程中的原始输入样本上添加扰动构造对抗样本来进行训练,提高模型的鲁棒性和泛化能力。实验结果表明,在NYT-10-enhanced数据集上模型REDST-DFGM以及REDST-DPGD的AUC值分别达到了0.433和0.449,相对于模型REDST-DESC的AUC值分别提高了0.4%和2%,而对比基础模型REDSand T分别提升了2.4%和4.0%,与对照实验当中性能最好的模型DISTRE相比AUC值分别提高了1.7%和3.3%,验证了本文设计改进的模型方法REDST-DFGM和REDST-DPGD总体性能优于其他对照模型方法。
其他文献
2020年以来,新冠肺炎疫情传播加剧,严重影响着我国各行各业的发展,众多小微企业面临复工复产难题。为刺激我国经济发展,帮助小微企业和实体经济迅速复苏,党中央、国务院强调要加强对小微企业的扶持力度,并颁布了系列助力小微企业恢复生产经营和经济平稳有序发展的税收政策和服务举措。G区作为重要的主城区,辖区面积广阔,属地居民众多,小微企业的行业类型和经营范围全面覆盖。对于如何在疫情常态化的新形势下进一步提升
学位
随着国家对产业升级、环境保护的持续深入支持,绿色、节能、可持续的新型建筑在全国各地得到积极探索与实践。装配式建筑为这一阶段发展过程中得到大力推广的一种新型建筑,能够最大限度地对资源进行优化配置,节省劳动力资源,降低施工对周围环境的影响,提高综合效益。因此,推进装配式建筑的发展已经成为建筑行业的普遍共识。就目前情况来看,装配式建筑相比于传统现浇建筑建造成本增加,建造过程成本控制水平较低,成本因素已是
学位
随着城市轨道交通系统高速发展,地铁客流量逐年攀升,换乘站点作为连接不同线路的枢纽,逐渐发展成城市大规模客流的主要聚集地,如何分析换乘客流分布的客观规律,实现乘客乘车需求和地铁运力的匹配,提高轨道交通运营效率,是当前轨道交通领域的研究热点。因此,本文基于地铁AFC数据,结合地铁站点静态信息表,识别乘客出行路径及换乘站点,提取各换乘站点在不同方向、不同时刻的换乘客流,进而实现对换乘站内部的换乘客流预测
学位
目的:通过植物组织培养技术诱导雪胆愈伤组织,确定愈伤组织的最佳诱导方法并优化培养条件;筛选优良愈伤组织并进行雪胆悬浮细胞培养,优化培养条件;建立雪胆甲素的含量测定方法;基于根、茎、叶转录组测序结果,分析并挖掘与雪胆活性成分合成有关的功能基因;利用茉莉酸甲酯(Methyl Jasmonate,MeJA)对悬浮细胞的诱导作用,研究诱导子对悬浮细胞中活性成分含量的影响以及功能基因对雪胆活性成分合成的分子
学位
重金属污染具有高毒性、持久性和生物积累性等特点,严重危害人体健康和生态安全。本论文以玉米芯残渣为原料,制备了一种碱改性生物炭-膨润土复合物(Ca O-Bent-CB),用于水中Pb2+的吸附去除和土壤中Pb2+的稳定化。同时,开发一种以丙烯酸-苯乙烯磺酸共聚物为液体固化剂、水泥为胶凝材料、纳米水化硅酸钙为早强剂的有机-无机复合底泥固化剂,用于底泥的固化及重金属的稳定化处理。主要研究内容如下:(1)
学位
我国城市化进程背景下人口向大中城市集聚趋势明显,城市空间扩张导致了职住分离现象,居民通勤距离拉长从而产生更多机动化出行需求。而小汽车出行方式的增多加重了城市交通系统负担,还造成了空气污染、能源消耗等各种负面效应,制约城市交通的可持续发展。在城市建设过程中,规划者开始考虑能否通过改善建成环境来促进居民出行方式调整,减少小汽车的使用。本文以环境行为学和效用最大化为理论基础,先是对建成环境概念进行了解释
学位
国内电商高速发展,淘宝、京东、拼多多等平台已逐渐取代了实体店铺,尤其随着新冠疫情的爆发,线上平台已成为人们购物的不二选择。随着购物需求的日益增多,如何将商品自动准确分类从而进一步精准推荐已成电商平台亟待解决的问题。服装相较于其他商品更具多样性,背景复杂、姿态各异、形变、视角、遮挡等因素都影响着其定位和分类的准确性,使服装分类任务成为一件具有挑战的任务。本文针对服装类别和服装风格分类问题展开研究,基
学位
随着我国高铁经济的快速发展,北京城区内高铁数量逐渐增多。京沪高铁对城市空间的割裂,导致沿线环境无序,地面空间闲置等问题突出。在城市交通空间的高质量发展下,城区内高铁沿线空间的再利用是治理的重要对象。北京行政辖区内京沪高铁共约41.88km,以高架形式为主,其桥下及沿线地面空间的再利用是本论文的研究内容。研究首先对城区内的京沪高铁沿线城市空间现状进行梳理,在遥感卫星图像的基础上,结合研究区内的实地调
学位
近年来,由于市场激烈竞争,企业采取并购方式进行规模扩张来扩大市场占有率越来越广泛。截至2021年12月,我国企业并购交易量达12790笔。然而实际并购中存在信息壁垒、对目标企业实际经营状况偏差等因素,引发收购目标企业估值不准确。于是对赌协议就应时而生运用于企业收购中,其事先约定相关条款和目标,便于控制因信息不对称和估值方法错误等因素产生的估值偏差风险、激励被并企业实现业绩目标、降低整合失败风险。但
学位
耕地作为粮食作物生长的载体,是保障粮食安全的基本要素。我国人多地少,人均耕地资源远低于世界平均水平,近年来由于城市化的加快以及社会经济的发展进一步导致了耕地数量的减少,粮食安全受到威胁,因此国家制定了严格的耕地保护制度对耕地的数量和质量进行保护。其中高标准农田建设可以巩固和提高粮食生产能力、保障国家粮食安全,高标准农田建设区的划定是高标准农田建设的首要工作,因此确定影响高标准农田建设条件的评价因子
学位