可控复述生成方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:jintaijing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复述是指用不同的词语或句式表达相同语义的文本。复述生成是对给定的句子生成语义相同但表达方式不同的复述句,广泛应用于自然语言处理相关任务。近年,随着复述生成技术的深入发展,面向特定用途的按照指定句式生成复述句的需求出现,可控复述生成作为新的课题应运而生,成为研究热点。可控复述生成是指将输入句按照给定的句式范例句生成复述句,使其句式与范例句一致,同时保留输入句的语义。已有工作的成果在与范例句的句式相似度上表现较好,但同时存在输入句的语义保持度降低的问题。针对该问题,本文提出基于层次句法树的可控复述生成模型,以提升模型的语义保持度。另一方面,可控复述生成模型的训练需要大规模有句式变化的复述平行语料,而现有的语料构建方法难以满足这一需求。针对该问题,本文提出句式多样化复述平行语料的构建方法,并通过应用任务验证该方法的有效性。本文的主要研究内容和贡献包括以下两个方面。(1)设计实现基于层次句法树的可控复述生成模型。可控复述生成采用编码-解码的复述生成框架作为基础,不同的是在输入端增加范例句作为新的输入。核心问题是如何对范例句的句式信息进行编码并在解码时指导生成复述句。经初步实验发现,已有的工作采用范例句句法树的最底层信息进行编码,对生成的复述句在单词数量以及词性上进行过强约束,导致生成中断问题,从而引起语义保持度降低。对此,本文提出基于层次句法树的句式范例句编码解码方法,编码更高层次的抽象句法树,并在解码端为句法成分节点添加控制向量以调整生成单词的数量,从而规避对单词级别的强约束,使得对应的语义通过选择句式能够在复述句生成中得到充分体现。本文在公开英文数据集的评测实验结果显示,与已有最好的模型相比,本文模型在语义保持度的评测指标BLEU、ROUGE-1、ROUGE-2、ROUGE-L和METEOR上,分别提升0.87%、1.33%、0.09%、0.94%和0.66%;在句式相似度评测指标TED-R和TED-E上,性能分别提升0.56%和1.79%。本文进一步评测了生成中断问题的改进效果,统计结果显示92%的中断问题得到了改善。评测结果表明,本文所提出的基于层次句法树的编码解码方法能够有效缓解生成中断问题,在句式相似度提高的同时,在语义保持度上得到较大提升。(2)提出句式多样化复述平行语料的构建方法并进行应用任务的验证。针对可控复述生成模型训练缺乏句式多样化数据的问题,本文利用机器翻译引擎及自动评测方法,构建句式多样化的复述语料。具体地,本文提出选取多个优质翻译引擎从英语复述获取汉语复述的方法,并设计实现基于语义相似度和句式多样性的复述句对筛选算法,从Quora的英语复述数据中获取汉语复述语料11.5万对。本文在复述识别和自然语言推理任务上进行分别验证,并进行单一翻译引擎和多种翻译引擎使用的对比,以及筛选算法的评测。评测对比结果表明,本文构建的语料所训练的复述识别模型和推理模型与基线模型相比分别提升8.59%和2.64%,说明本论文的方法可以引入句式多样化的复述句对,从而能够增强下游任务模型的鲁棒性。此外,在小样本实验上的评测结果显示,所构建数据对于低资源场景的任务也具有数据增强效果。本文在可控复述生成研究上,提出基于层次句法树的可控复述生成模型,在公开数据集上的评测实验验证了所提出方法相比已有方法在性能上有较大的提升。面向可控复述生成研究构建句式多样化的复述语料,并经过对比实验证明所提出方法的有效性。
其他文献
学术论文凝聚着学者们优秀的研究思想。但是在当前海量论文数据、信息过载的情况下,如何充分挖掘论文中隐藏的知识,为论文的检索增加更丰富的语义信息,如何帮助科研人员快速、高效地获取所需的学术论文,是一个巨大的挑战。学术知识图谱结合推荐技术可以解决上述问题。随着谷歌公司将知识图谱用于检索,已出现很多优秀的学术知识图谱,如Ace KG等。但是这些大规模知识图谱多集中于通用和计算机领域。信息系统领域与计算机领
随着“碳达峰,碳中和”目标的提出,发展高比例可再生能源是大势所趋,提高可再生能源发电占比是实现碳中和的途径之一。但可再生能源集中接入会给电力系统带来了新的挑战,可再生能源发电的高比例接入改变了系统的网架结构和运行方式,其自身固有的波动性会显著增加系统中的不确定性,进而影响电力系统静态和动态的安全稳定运行。因此,对电网运行开展量化风险评估显得尤为重要。基于上述背景,本文对考虑风场预测误差的电力系统静
随着互联网与云计算的兴起,大量行业应用的需求推动了云服务市场的快速发展。近些年云服务市场出现了很多功能十分相似,但是服务质量(Quality of Service,QoS)各不相同的云服务。QoS反映了服务的非功能特性,在服务高度同质化的现状下,基于QoS的云服务推荐技术被证明是进行筛选与评价云服务的有效手段。然而,由于云服务数量众多且调用昂贵,对于普通用户而言QoS信息是极度稀疏的,因此预测Qo
近年来,电气设备的状态检修技术快速发展,低压断路器作为输配电系统的重要设备,其工作状态的在线监测具有重要意义。低压断路器的故障有电气故障和机械故障两种类型,本文主要对机械故障进行了模拟,并采集了不同机械故障的振动信号作为原始数据用来对断路器的健康状态进行评估。首先,搭建了实验平台,基于平台的主要硬件边缘计算网关SK3000和压电加速度传感器对故障的振动信号进行采集,借助Pycharm软件对采集的信
雷害一直是威胁电网安全稳定运行的主要因素之一,线路运行时,雷电天气会使得电力系统受到雷电波的侵害,造成绝缘子闪络,雷击断线等事故。据统计,在高压架空输电线路发生的跳闸事故中,雷击占据了60%以上,是引起线路跳闸的重要因素。并且多次雷击会导致断路器断路器在开断过程中再次被击穿,重新引燃断口间的电弧,造成重合闸过程开关二次击穿,线路重合失败,影响电网以及电力系统的安全稳定运行。在电力系统快速发展的背景
车站是设有一定数量配线的分界点,很多时候也是铁路通道运输能力的瓶颈点,车站通过能力不足,会限制整条铁路通道的运输能力。随着“一带一路”战略逐步成熟,中欧班列的数量与日俱增,对通道能力提出了更高的要求,作为通道上的重要节点,每个车站的作业量也迅猛增长,日益增长的列车进路和作业资源调度工作也对现行的车站作业组织发起了挑战。同时在作业组织过程中,产生的调度成本较高、设备损耗较严重等问题也愈发凸显。如何在
城市轨道交通供电系统的电磁暂态仿真是研究供电系统结构稳定性和分析电能质量的有效手段。由于城轨供电系统内部包含大量非线性特性的电力电子设备,如PWM变流器、二极管整流机组等,为了精确模拟供电系统的暂态特性,本文主要对城轨供电系统的电磁暂态建模和电磁暂态算法深入研究,采用了一种基于计算子系统的分段平均模型改进EMTP算法,并开发了可进行系统级城轨供电电磁暂态计算的仿真平台。在城轨供电系统电磁暂态建模方
因高速公路交通事故导致的死亡人数逐年上升,深入挖掘并分析高速公路交通事故各因素属性间的潜在关联关系并揭示其耦合机理将是探究高速公路交通事故致因的有效手段。然而,现有研究在关联规则挖掘算法的设计和应用层面存在一定局限:普通串行模式的关联规则挖掘算法在挖掘过程通常会产生大量候选项集,需要很大的运行内存来支撑,并不能针对海量交通事故数据进行有效挖掘;与此同时,大多研究只关注支持度和置信度高位关联规则,易
基于硅通孔(Through Silicon Via,TSV)转接板技术的三维封装集成电路(以下简称TSV三维封装集成电路)相比平面集成电路缩短了互连长度、降低了信号延迟,同时拥有较高的异质器件集成能力,有效解决了空间飞行器载荷有限带来的存储和计算能力不足的难题。然而,在空间单粒子效应的影响下,航天电子系统会发生随机故障甚至系统崩溃,对器件单粒子效应的研究对保障航天器安全运行具有重要意义。本文基于蒙
随着我国西部铁路的快速建设,风沙问题对铁路运营的影响日益突出。风沙灾害一直是困扰风沙区铁路建设和安全运行的主要问题,风沙灾害的防治已有众多研究和解决方案,多为固沙和阻断风沙措施,缺乏对在风沙影响下,如何合理选择线路设计参数来提升抵制风沙影响能力的研究。基于此,本文致力于研究风沙区铁路风沙影响效应,提出线路设计阶段线路参数的优化方案,以提高线路抗风抗沙能力,保证铁路的安全运营。本文依托兰新高铁沿途风