融合注意力机制的抽取式摘要生成技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:HUANJIAN666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动互联网的不断发展使得互联网用户的群体不断壮大,网络上产生了海量的数据信息并且呈爆发式增长。你可能曾经遇到过这样的场景:当你因为对文章的标题感兴趣而点开文章连接时,你发现文章的内容与标题毫无关系。如何快速在这些海量信息中准确的获取我们需要的文本信息具有非常重要的研究价值,文本摘要生成技术作为解决这一难题的重要技术应运而生。随着对信息技术和人工智能研究的不断深入,文本自动摘要生成技术成为主流方法,但现有的文本自动摘要生成方法仍然存在很多问题。在预训练的词嵌入表示方面,如何更准确的表示句子的核心内容一直是自然语言处理领域需要突破的难题。从生成摘要的质量来看,一般存在句子冗余或者句间、词间语义结构混乱的问题。在模型泛化方面,有监督的模型训练方法依赖于人工书写的摘要,所以利用有限的人工摘要训练出针对多领域的摘要自动生成模型,是让自动摘要生成技术广泛应用的关键点。针对上述问题,本文主要做了以下三个方面的工作:文章分析了端到端模型中常用的解码器模型,通过分析我们发现,常见解码器存在信息遗失问题,可以通过添加注意力模型来解决这一问题。所以本文首先采用了有更好表征能力的BERT(Bidirectional Encoder Representation From Transformer)作为句向量的编码方式,在编码器中利用BERT的微调机制抽取定长的语义向量,结合以双向的长短期记忆网络(Bi-LSTM)使模型更加适应中文语义与写作习惯,并在解码器中添加注意力(Attention)层来帮助解码器,在每一个时间节点都获取到需要关注的注意力点。最后通过大量的实验证明BERT的句子级编码方式的抽取式摘要生成模型可以消除句子冗余、提高摘要的准确性和可读性。而注意力机制的加入则使得该算法生成的摘要能够更大程度还原原文本的核心内容。为了更加贴合人工书写摘要的方式,文章在前文研究的阶段性成果上提出了一个基于多头注意力的二段式摘要模型。将前文生成的摘要通过BERT词级编码作为输入,将多头注意力(Multi-head Attention,MHA)机制作为模型的解码器,将中间生成的一级摘要改写成最终摘要,形成了一个二段式摘要生成模型。相比于直接利用原文本进行生成式摘要生成的方式,利用中间一级摘要的方法具有适合生成式摘要模型的长度优势,即利用更短的内容、更加精炼的文本为生成式摘要的方法提供便利。实验证明,二段式摘要模型的短文本词嵌入编码更适合生成式的摘要模型,经过修改的多头注意力机制,可以提高生成摘要的可读性、减少语句混乱现象,为后续的研究工作提供方向。在提出的基于多头注意力机制的二段式摘要模型的基础上,设计并实现了交互设计良好、生成摘要质量较高的自动摘要系统。广泛的系统功能测试结果表明该自动摘要系统能够将网络上的文本信息一键生成质量较高的摘要,为文章提出的算法提供实际应用。
其他文献
中华民族认同是中华民族的每一位成员感觉到大家是同属于一个人们共同体的自己人的这种心理,是对中华民族及中华文化的归属感,是中华民族儿女对中华民族的一种归属意识。我们
唐代赋税逋欠是唐代赋税研究的重要一环,也是唐代财政史中必不可少的一部分。据史料记载,赋税逋欠是各方面因素相互作用的结果,在唐中后期大量出现。本文通过对逋欠缘由、比重、走向的分析,可大致看出唐代财政的变化以及政治力量的对比。在文章结构方面,主要通过三部分论述:首先论述了唐代赋税逋欠产生的缘由。本文通过史料分析归纳,将其分为六类,即自然灾害、军事战乱、赋税繁重、产去税存、摊逃以及避而不纳。通过对产生逋
随着多媒体数据的爆炸式增长,跨模态检索已成为多媒体计算和信息检索领域的研究热点。跨模态检索方法以某类模态的数据为查询对象,检索其他模态中的相关数据。它打破了传统的以图片搜索图片,文本搜索文本为主的单模态检索模式的局限性,开辟了一种全新的方式来有效地支持多模态数据检索。然而,大规模的跨模态检索在存储消耗和检索速度上都面临着巨大的挑战。跨模态哈希将高维多模态数据(如文本、音频、图像、视频等)投影到公共
多金属氧酸盐(POMs)是一类酸性阴离子型氧化物,具有良好的氧化还原性、热稳定性以及优异的光、电、磁学特性等,在催化、医药、材料科学领域中得到广泛应用。近年来多金属氧酸
本文采用物理气相沉积方法,使用阴极电弧离子镀技术研究、制备一种超硬纳微米多层梯度涂层,即TiAlSiN超硬涂层,与AlTiN涂层进行性能对比。通过能谱仪(EDAX)分析涂层的元素成
离子液体参与下的萃取脱硫技术因具有工艺设备要求简单、反应条件温和等优点,受到人们广泛的关注,本课题围绕离子液体直接萃取、离子液体萃取结合氧化脱除船用残渣燃料油中的
挥发性有机化合物已成为继颗粒物、二氧化硫、氮氧化物之后的又一大气污染物,开发有效治理VOCs的方法是目前普遍关注的研究热点。吸附法因其效率高、效果稳定、能耗低的优点
随着环境污染越来越严重,我国对化工工艺过程中的废物排放问题也越来越重视,化工工业亟需一个系统性设计方案来达成单元或装置内的废物最小化目标。质量集成(Mass Integratio
近红外光谱信号谱峰重叠严重,传统化学计量学方法不考虑光谱中隐含的实际物理与化学意义,任意环节的变动都会造成最终建立的近红外光谱分析模型的差异,这样的分析模型不具有
目前稠油的开采量逐渐增加,稠油中的胶质沥青质含量较高,从而导致了稠油黏度较高,如何高效降黏仍然是亟待解决的问题。本文使用分子动力学模拟软件,对不同电场作用下,稠油体