多领域文本的自动文本摘要系统研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:diahou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要是自然语言处理领域的一个重要研究任务,其针对大规模长文本进行关键信息的压缩和抽取,在当今互联网信息爆炸增长的环境下有广泛的应用需求。随着人工智能技术的研究发展和硬件计算能力的提升,自动文本摘要系统从基于规则的方法发展到基于特征工程的方法再到近年来基于深度学习的方法。其中深度学习方法的表示学习能力,对大规模模型的支持,使得自动文本摘要技术发展到了新的阶段。然而,受文本语料获取难度的限制,现有工作多集中于新闻文本,在科学论文、社交媒体、对话会议等领域虽然有极强的文本摘要需求,却很难有效利用通过新闻文本获得的高性能文本摘要系统。因此,本文着眼于自动摘要系统在多领域文本的自适应和迁移问题,基于深度学习方法,探索如何获得具备多领域自适应能力和小样本迁移能力的自动文本摘要系统。具体地,本文以生成式文本摘要为主线,以预训练语言模型为基础模型,针对多领域文本的领域自适应和领域迁移两个核心问题研究了三种解决方法。第一,本文针对自动文本摘要系统的领域自适应能力不足的现状,提出了一种基于多任务学习的领域自适应文本摘要模型,利用预训练语言模型的领域泛化能力,通过对不同领域无标签数据的联合学习,达到扩大模型领域覆盖范围的目的,最终实现具备领域自适应性的文本摘要模型。第二,本文针对缺少无标签数据的领域,提出通过领域文本语义空间分布距离作为领域特征的领域特征挖掘方法,并将领域特征与预训练语言模型融合,使预训练语言模型获得了较好的领域迁移能力。第三,本文结合前两者,提出了基于元学习的模型无关自动文本摘要方法,通过无标签文本训练得到模型生成器,在采取小样本微调后生成针对特定目标领域的自动文本摘要模型。实验证明,本文提出的三种模型或方法可以提高生成式文本摘要系统在多个领域文本上的自动摘要性能,并且具备较强的领域自适应和迁移能力。本文提出的三种方法旨在解决自动文本摘要系统在多领域文本的适应和迁移能力,针对无标签文本多标注文本少、无标签文本少标注文本少等不同情况,结合文本摘要系统的特性和预训练语言模型的泛化能力,本文提出的多任务学习方法、领域特征抽取及融合方法和元学习方法取得了显著的效果,同时也为未来自动文本摘要系统在多领域文本的研究提供了新的思路。
其他文献
随着人们生活水平的提升,对身体健康方面的要求也越来越高,更多人选择居家环境下的健身来提高身体素质。另一方面,WiFi信号由于其低成本和普及性等特点被广泛应用于室内环境下的动作识别。因此利用WiFi信号对居家环境下的健身动作进行识别具有可行性与实用性,可以有效的指导室内健身活动。然而用户的行为习惯、体型和性别等存在差异,训练通用模型用于不同用户的动作识别往往因为忽略这些差异而出现模型性能下降的问题。
随着近几十年来纳米加工技术的飞速发展,金属纳米结构的光学特性博得了研究者们更多的关注,这主要是因为金属纳米结构中自由电子可以被光激发而出现集体振荡,称之表面等离激元(SPP)。这种集体振荡会在适当的入射光频率下达到共振,这时光被极大地限制在金属表面上的纳米级区域,出现表面等离子激元共振(SPR)。金属的这一优异的光学特性也被应用在各个领域,表面增强拉曼光谱(SERS)是最常见和最重要的应用之一。由
油纸绝缘系统是油浸式变压器的组成核心,很大程度地影响着变压器的正常运作。而变压器油纸绝缘中极少的水分含量对绝缘强度起着至关重要的作用,水分会使得变压器绝缘老化的进程增快,减少变压器的额定寿命。因此变压器油纸绝缘的水分含量早已成为指示绝缘状态的关键指标。目前工程中需要离线检测变压器绝缘纸板的含水量或离线、在线检测绝缘油含水量来评估变压器油纸绝缘的受潮程度,而广泛使用的离线、在线水分检测方法,例如卡尔
近年来,面对我国社会经济转型的时代背景,村镇地区一方面面临加快经济发展,长效解决贫困,助力乡村振兴的重任;另一方面需要加强生态和资源保护力度,维护区域国土生态安全。村镇聚落作为村镇地区环境文化信息最丰富的载体,承载了人类大量的生活、生产活动。村镇聚落在空间上的变化,不仅能够促进社会经济的快速发展,同时也会由于不科学、不合理的利用方式而带来一系列问题。因此研究新时期背景下村镇聚落空间格局应如何进行适
永磁同步电机与减速器的集成应用具有功率密度高、体积小、成本低等优点,已逐渐成为国内外纯电动汽车动力系统应用的主流。由于该系统自身特性,它受到电机电磁场、温度场和系统间的机械动力耦合作用,使得该系统的多场域综合高效控制较为困难,不利于其节能潜力的进一步挖掘,也不利于纯电动汽车的进一步推广。本文以一款由内置式永磁同步电机和减速器集成的一体化电驱动系统为研究对象,开展考虑一体化电驱动系统“机-电-磁-热
茶室作为我国自古延续至今的文化休闲场所,其空间形制以及功能作用随着时代的发展以及人们消费观念的转变而在不断发生变化。当前,伴随物质和消费水平提高,人们的消费目的不再停留于满足日常生活所需,而开始转向寻求精神上的补充。现在人们到茶室消费的目的不再是简单的饮茶解渴或消磨时光,而是更希望在饮茶的同时能够感受到独特的茶室氛围,接收茶文化的熏陶,从而使精神饱满。但目前闽南大部分茶室还停留在片面的提供物质服务
位错是Al-Cu-Mg合金微观组织结构中的重要缺陷,对材料的塑性变形行为和强化相的析出行为具有深远影响。系统定量表征位错的几何和晶体学特征对于深刻理解材料内部诸多动态过程的微观机理和宏观行为具有重要意义。传统二维透射电镜观察方法所获取的图像通常为三维结构在电子束方向的二维投影像,因而无法准确反映位错的三维形态与空间关系。本文利用透射电镜位错三维重构技术及关联晶体学方法对淬火态Al-Cu-Mg合金组
来自制浆造纸工业废液的工业木质素具有原料丰富、价格低廉、毒性低、可生物降解等优点,是制备各类化学品和高分子材料的良好原料。其中,木质素磺酸盐具有良好的分散性能,被大量用作染料分散剂和农药分散剂。亚硫酸盐法制浆厂的减少使木质素磺酸盐的供应变得紧张。因此,有必要以其他木质素为原料开发木质素基分散剂,以减少对亚硫酸盐浆厂的木质素磺酸盐的依赖。国内已有企业正在建设乙酸法制浆生产线。因此必须及时进行乙酸木质
超临界二氧化碳布雷顿循环是一种具有变革性意义的热力循环,其具有系统结构紧凑、循环效率高、适应环境范围广、系统启停响应快等优点,因此在核能动力系统中具有广泛的应用前景,被我国列为未来能源动力领域的战略性前沿技术。在超临界二氧化碳布雷顿循环中,采用体积小、换热效率高、耐高温高压的印刷电路板式换热器(PCHE)作为换热核心设备(包括预冷器和回热器)。在印刷电路板式换热器内,由于超临界二氧化碳(尤其是在近
关键构件在服役期间的安全性和可靠性一直是工程领域高度关注的问题。尤其是针对疲劳损伤导致的断裂失效问题,大量研究表明微裂纹的萌生和扩展是构件失效的重要因素。传统线性超声检测技术对毫米级以下的微裂纹损伤并不敏感。而基于超声波与损伤微观结构之间的非线性效应,非线性超声检测技术可对尺寸远小于波长的损伤进行检测和评估。但是目前针对微裂纹损伤的非线性超声检测和定位研究还存在不足。本文针对随机分布微裂纹损伤,开