基于文本结构信息的短文本摘要生成研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:flymummy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为缓解信息过载问题的一种有效手段,自动文摘一直是自然语言处理领域中的研究热点。由于已有的神经网络方法尚不能有效地对长文本进行语义编码,目前主流的生成式自动文摘方法主要针对短文本,利用基于循环神经网络的编码器对输入文本进行编码,学习的信息主要是输入文本所反映的序列化信息,缺乏对文本包含的物理结构、语义结构等结构信息的有效利用。本文主要研究如何利用文本包含的结构信息来提高生成摘要的准确性,具体包含以下三个方面:首先,提出了一种融合文本物理结构信息的方法。文本的物理层次结构有助于更加准确地判断文本内不同结构单元的语义信息和重要程度。因此,本文提出了一个层次文本阅读器来根据文本的物理层次结构对文本进行编码,并提出了一种语义融合单元来对输入文本不同层次的语义信息进行融合,形成最终的文本表示提供给解码器生成摘要。实验结果表明,系统性能在ROUGE评价指标上有显著的提高。其次,提出了一种融合文本语义结构信息的方法。本文以BIO标签表示的命名实体为词级结构信息,以依存句法结构为句级结构信息,形成浅层语义结构信息来丰富编码器的语义特征,扩展传统基于编码器-解码器的文摘模型,以生成以核心实体为中心的摘要。实验结果表明,引入浅层语义结构信息能够提升模型性能。最后,本文探索了如何使自动文摘模型自适应地学习和利用文本隐含的结构信息,并提出了一种基于文本隐含结构的生成式自动文摘模型。该模型在编码器端引入文本自匹配机制来学习文本中每一个词与其它词之间的关系,作为每个词对应的结构信息融入到其语义表示中,并利用全局门控单元抽取出文本的核心内容。实验结果显示,该方法在ROUGE评价上有显著提高,这表明本文提出的模型能有效学习和利用文本隐含的结构信息,挖掘出原文本的核心内容。
其他文献
首先研究了软土路基的施工技术,如排水固结法、土工织物法、抛石挤淤法、深层拌和法、加载法、置换法等内容,然后分析了软土路基施工的管理措施,如做好图纸会审,全面优化施工
随着经济的发展,科技不断进步,我国的通信技术也取得了突飞猛进的发展。这不仅彰显了我国的国力,也为人民的生活带来了质的飞跃。通信技术的飞速发展,让人们切切实实的感受到
在小区范围内,随着国家层面的放权,政府彻底“隐于幕后”,将舞台交由社会。原先由居委会和物业维持的两级结构在业主委员会成立之后被打破,此后,“三驾马车”共同推动社区发展成为新的趋势,业主委员会的成长直接带来了新型结构的完善。本次研究聚焦于业主委员会的成长过程,从实现了隐藏的权力入手,将业主委员会的发展分为三个阶段:权力生成阶段、权力发展阶段、权力异化阶段。并以S小区为例,对各个阶段的影响因素进行分析
“五位一体”是新时代中国特色社会主义事业总体布局,进入21世纪以来,我国社会主义发展十分注重物质文明、精神文明、社会文明、生态文明,当前我国建设逐渐朝着民主、文明、
卷取机是轧钢生产线的重要辅助设备之一,它的作用是将精轧机组轧制的带钢以良好的形状紧紧地、无擦伤地卷成钢卷。卷取机的工作状态将直接影响轧机生产能力的发挥、成品带钢
“行动研究”(ActionResearch)是近年来国外发展起来的一种教学理论研究方法。它既是教师教育发展的有效方法之一,又是在职教师自我完善的捷径。但是,“行动教育”是国内学者提出
随着建筑设计和施工水平的提高,能够高效利用土地资源的高层建筑在国内各大城市快速崛起,目前已属于影响我国国民经济发展的支柱型产业。但是现阶段很多建筑企业的施工成本越来越高,导致建设资金周转极为缓慢。所以建筑企业要想在激烈的市场竞争中站稳脚跟,除了努力改善施工技术水平为建设单位提供更优质的工程外,更要从其它方面寻找效益持续走低的原因。一般在高层建筑施工中材料费所占的比例均在整个项目总造价的60%以上[
<正> 本项目经过选育研究获得F5代和F6代,体型好,具有明显的优良性状。红色个体比例分别为75.8%和80%;个体生长分别比原来提高10.87%~16.73%和12.4%;当年个体为175克~250克,大者470
<正>本实用新型涉及一种耐冲击耐喷淋无卤低烟阻燃中压耐火电缆,包括导体,导体的外部以三层共挤的方式依次挤包有导体屏蔽层、交联聚乙烯绝缘层和绝缘屏蔽层,在绝缘屏蔽层外
聚酰亚胺(PI)耐高温、耐酸碱性、耐辐射,且不产生有毒物质,因此对社会环境无“三废”污染;广泛应用于航空航天,电子机械、电路元件和精密制造等高新技术领域。但现有的PI也存