融合结构化信息的文本摘要技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lgkenny1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近,对于纯文本数据的文本摘要技术已经取得了巨大的突破,但仍然存在对结构化信息忽略的问题。有相当部分的数据是带有结构化信息的文本,在某些领域,合理地利用结构化信息对于改进文本摘要的质量至关重要。为此,本学位论文在两个领域探讨融合结构化信息以改进文本摘要的效果,包括:面向推文的实时事件摘要中提高摘要完整性和基于抽象语法树提高代码摘要质量。首先研究了面向推文的实时事件摘要问题。推特文本中包含了时间信息,可以有效地帮助面向推文的实时事件摘要系统在更新的过程中保证摘要的准确性和一致性。例如,地震发生后不同时间段的死亡和受伤人数可能存在不准确或不一致,本文提出基于完整性的实时事件摘要系统在摘要更新的过程中始终保持摘要的准确性,消除不一致信息。为此,本文设计了一个显式的不一致检测模块以删除不一致信息,并将抽取式与生成式摘要方法融合成一个统一的框架,提出一个基于完整性感知的抽取-生成式实时事件摘要系统(Integrity-Aware Extractive-Abstractive Realtime Event Sum-marization,简称IAEA)。在每次更新中,首先在抽取器中抽取重要的新推文,然后通过显式检测新推文与先前推文之间的不一致来调整句子级别的注意力分数,随后由生成器来生成单词级别的注意力分数并使用对应的句子级别注意力分数对其进行微调。通过实验证明,与最新方法相比,IAEA方法可以生成具有一致信息的且质量高的摘要。其次研究了代码摘要,相对于纯文本,编程语言由于具有严格的语法规范,其结构化信息(如抽象语法树)可以有效地帮助生成简洁而准确的摘要。然而,一段代码的抽象语法树往往树的深度非常大,因此存在着训练困难的问题。针对该问题,在本文中提出逐块拆分抽象语法树(Block-wise Abstract Syntax Tree Splitting,简称BASTS)方法,基于控制流程图对应的支配树中的块来拆分方法的代码,并为每个拆分的代码生成对应的抽象语法树。然后,使用预训练策略对每个拆分后的抽象语法树采用Tree-LSTM进行建模,以捕获局部非线性语法编码。最后,将学习到的抽象语法树对应的语法编码与代码序列对应的编码结合在一起,输入到Transformer中以生成高质量的代码摘要。在公开数据集上进行实验,结果表明,在各项评估指标中,BASTS方法均明显优于最新代码摘要方法。
其他文献
近年来,中国经济在经历高速增长阶段后经济增速逐步放缓,步入新常态。由于原先传统的粗放型经济增长已经无法延续,经济亟需转型升级,在新旧动能转换中以实现高质量发展。而积极的财政政策是实现高质量发展的重要宏观调控手段,减税降费可以为高质量发展注入强劲动力。中央多次指出要实施更大规模的减税降费。政府陆陆续续从增值税改革、个人所得税改革、企业所得税优惠政策等途径实施减税降费,涉及面广、规模大,呈现出结构性减
学位
随着人类对飞行器的研究与开发,高空高速飞行器以及天地往返飞行器都得到了快速发展。这些飞行器在高速飞行或在再入大气层过程中,周围的空气会与机身发生剧烈的气动载荷作用,在机身周围形成高温高压热气流,这些热气流一旦通过缝隙进入到一些低温部件区域,就会对飞行器造成严重的安全隐患,因此,对这些缝隙的封严显得尤为关键,成为制约飞行器发展的瓶颈之一。本文以基线封严结构作为研究对象,其基本结构组成为1:外层的石英
学位
改革开放以来,我国在经济在实现高速增长的同时,产业结构升级也在不断进行着。2012年三产占GDP比重超过了二产;同时,城镇内部,二产中劳动密集型工业占比持续下降,三产中信息与技术密集型生产性服务业占比不断提高。另一方面,自2015年开始,我国居民收入差距(Gini系数)持续维持在超过0.46的高位水平。产业结构升级是否可能拉大城镇内部居民的收入差距?城镇内部产业间和产业内部资本技术密集型产业与劳动
学位
在我国经济社会的发展历程中,工业是国民经济的主导,创造了大量的经济效益,是经济发展的重要基石。然而,随着工业规模的迅速扩大,其带来的环境问题也不容忽视。因此,探索可持续发展的模式以实现工业发展和环境保护的“双赢”,制定科学的环境政策,具有重要的理论和现实意义。本文从理论方面考察了环境规制对工业绿色转型的影响,并从区域的视角探索这种影响的异质性,同时研究了资源禀赋的调节作用。在此基础上,本文选取了
学位
当前国内的量化投资领域正在稳健发展当中,其在证券市场中的应用有着广泛的需求。伴随着深度学习的迅速发展,基于深度学习的股票量化投资策略正逐步成为跨学科研究热点。相比于量化投资早期通过技术分析制定投资组合的方法,基于深度学习的方法能得到更加精确的股票价格变化趋势,帮助投资者制定更合理的量化投资组合。然而,股票的价格受到宏观经济、汇率、新闻媒体等诸多因素影响,使得证券市场的量化投资应用颇具挑战。本文基于
学位
镍金属颗粒不仅具有优异的导电性,而且价格相对低廉,在导电浆料领域有着广泛的应用,但也存在较差的抗氧化性,以及形成浆料后与陶瓷基板共烧过程中存在热收缩不匹配等问题。因此,本论文从提升镍颗粒的抗氧化性和热收缩稳定性的角度出发,首先通过化学液相还原法制得镍超细粉体,再利用溶胶-凝胶法形成二氧化钛壳层,并对镍@二氧化钛核壳结构的形成过程中的影响因素、抗氧化性、热收缩稳定性和形成机理进行了研究。获得的主要结
学位
近年来,人工智能、大数据分析及物联网等技术如雨后春笋般涌现,对全球价值链的发展产生了较大的影响,同时一些新兴发展中国家购买力不断增强,许多产品不再是由这些国家生产进而出口,而是在这些国家内部进行消费,传统的以劳动力成本为比较优势的贸易模式开始发生变化,开始向以科技和产品差异为比较优势的贸易模式进行转变,未来科技和产品的比较优势可能成为推动全球价值链发展的主要因素,因此当前世界许多国家和企业开始投入
学位
我国海洋资源充足,海洋水产品营养丰富,具有很高的商业价值,水产养殖行业发展迅速。水产养殖越来越需要更好的养殖策略来提高生产质量和效率。大规模育种和高质量的养殖,需要一种快速高通量的测量技术来提供数据支持。海洋科学研究的相关领域也需要测量鱼虾的一些形态参数。因此,本文选取对虾为研究对象,使用计算机视觉技术测量对虾的形态参数。围绕从对虾正面图像和侧面图像进行测量的目标,具体研究内容如下:首先,经过两次
学位
共振拉曼光谱是一种有效提高拉曼信号强度的表征技术,当激发光波长与目标分子的电子吸收能级匹配时,目标分子的某些振动模式的拉曼信号强度会呈现指数型的增强,我们便可以从拉曼谱图中获得更多的分子信息。由于共振拉曼光谱在可见光区和紫外光区实现对痕量物质高灵敏度的检测上存在显著差别,本论文将分别介绍在这两个波长区域开展仪器搭建和检测研究工作。对于可见光区的共振拉曼光谱,其增强倍数相对较低且往往伴随着强烈的荧光
学位
目的:研究老北京水果~1品牌的发展对策。方法:从品种资源分布、特色文化属性、保护恢复情况、品牌登记背书4个方面分析老北京水果发展现状和存在的问题。结果:当前存在部分品种恢复有难度、协同联动发展机制有待完善、品牌建设服务能力有待提升、品牌特色内涵挖掘有待深入、品牌宣传推介力度有待加强5方面问题。结论:从强化品牌创建引领、加强品牌创新联动、挖掘保育优质资源、开展果园提升改造、延展品牌宣展形式、畅通销售
期刊