基于图的生成式文本摘要技术研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:silkji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的指数级增长,互联网文本正变得更为多样。在这当中,篇章级文本在篇幅和数量上的显著增长为互联网信息地利用带来了新的挑战。作为一种有效的信息抽取技术,文本摘要可以从篇章级文本中准确地提炼出重要信息,从而大幅提升对互联网篇章信息的利用率。然而,篇章级文本除了篇幅较大外,其结构也远远要比单个句子复杂。而且,其结构往往与文本中信息的重要性有着非常密切的联系。如何有效利用文本中的结构信息,对文本中的重要信息进行识别与表示,是文本摘要任务面临的一大挑战。此外,文本摘要的另一个挑战在于,如何基于文本的重要信息表示,准确、简洁地进行摘要生成。在本文中,对于这两大挑战进行了针对性地研究。具体来说,本文的贡献主要包括以下三点:1、本文提出了一种基于图的文本表示方法。该方法可以充分利用原文的结构信息,实现对文本重要信息的识别与表示。此外,通过与自注意力模型的对比,本文还从理论上论证了这种方式的有效性;2、本文向生成式摘要模型中引入了一个重要句抽取器。通过该抽取器,模型可以有效地选择出原文中的重要信息,以用于最终的摘要生成;3、本文提出了一种基于图的联合生成式文本摘要模型。在训练时,模型将抽取式摘要与生成式摘要视作不同的任务,采用了类似于多任务学习的训练方式;在生成时,该模型则可以集抽取式摘要与生成式摘要之所长,以一种联合的方式进行摘要生成。最后,本文在CNN/Daily Mail数据集上进行了实验。实验结果证明,基于图的联合生成式摘要模型可以被有效地用于摘要生成。通过定量实验与定性分析,本文从多个角度充分地验证了该模型的有效性。
其他文献
随着我国科技信息的不断进步发展,中国的通信业务的发展也在飞速的发展着,中国联通作为中国电信行业的巨头之一在电信业的发展中其营销的策略对于我们非常具有指导意义。本文
2001年进行的基础教育课程改革提出了设立国家、地方、学校三级课程体系,以满足我国各地基础教育发展对课程的需求,自此以学校层次的地缘性的“校本课程”开始了蓬勃建设和发
液压机机架是基本支撑部件,其重量约占整备重量的40%~60%。机架设计的合理性直接影响着设备的重量、刚度和制品成型精度,以及制造和运输成本等。具有高强度、高刚度、高几何精
目的:观察益母草碱(Leo)对大鼠急性心肌缺血损伤心肌肌钙蛋白T(cTnT)水平的保护作用。方法:采用垂体后叶素(Pit)腹腔注射法诱导大鼠急性心肌缺血,以J点(Δmv)和T波(Δmv)上移
<正>目的:观察单纯戴镜一年治疗远视或散光性中、轻度弱视 (无屈光参差或斜视)的疗效。方法:对70只远视(+9D~ +1.5D)和或散光(4.5D~1.5D)导致的中、轻度弱视眼睛(视力0.3~0.8)单纯戴
会议
两千多年前,柏拉图曾经断言,“如果一个国家的立法是完美的,但法律人群体却是糟糕的,那么,这个国家的法治就会沦为一出滑稽戏”。$$ 对柏拉图这一判断,笔者对它作延伸理解。把法
报纸
生产库存问题中,由于市场需求的时变性以及不确定性,很难通过精确的理论模型选择调控策略。自抗扰控制(ADRC)技术是工程实践中基于误差反馈的控制方法,它对非线性、大时滞、
随着农业节水灌溉的逐步发展,低压管灌技术也在宁南山区得到了广泛的应用和推广。通过实地调查研究,总结并分析了低压管灌工程在设计方面存在的问题,提出了可供参考的建议。
农村生活垃圾的处理是建设新农村、改善农村生活环境的关键问题。首先,从经济成本和生态效益两个方面出发,文章运用线性规划建立了农村生活垃圾处理的模型。然后,利用莱阳市
<正>编者按:在"一标多本"模式下,各版本教材的编写与地理课标指向较为一致,但教材的内容与课标的要求尚有一定的偏差。因此,对地理课程标准与教材教法的深入研究,有利于教师