基于文本结构的句子排序和文本摘要

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jiejie2717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单篇科研文献文档摘要自动生成在信息检索中具有重要意义,可以为大规模信息检索提供简要信息提示。无监督抽取式摘要生成是文本摘要研究的重要任务,旨在从原文中依据各种文本语义特征,提取关键性句子作为简单摘要。  本文基于科学文献文档组织结构信息来建立单篇文档结构关系图,设计图模型算法对句子进行权重排序,提取重要的句子作为摘要。人在科学文献写作的过程中往往以一定的文本组织结构组织文本内容,有助于展示文本的内容层次,便于读者阅读。文本结构大体上包括句子、段落、章节。不同粒度的结构单元之间存在一定的包含依赖关系。本文研究借助段落、章节、句子和词的结构关系来提升句子排序计算效果,主要工作包括:  1)将文本结构表示成语义链网络,对文本中不同结构单元之间的部分-整体关系进行分析,给出了部分和整体之间互相作用的假设,在此基础上提出基于文本层次结构的层次迭代权重计算模型。  2)通过改变迭代方式、选取不同文本结构关系矩阵中的元素以及上下文范围计算方法,设计了六种层次迭代模型的变形。分析了上下文范围不同对词权重的影响,以及对整个句子排序结果的影响。找出了较优的上下文范围控制模式以及结构关系矩阵元素模式。  3)通过实验将层次迭代模型与经典抽取式摘要生成方法在句子排序和文本摘要任务上的结果进行系统地比较,探索不同方法对句子长度的偏好,分析了不同方法在不同类型文档上对于概括性句子的抽取能力。结果表明本文所设计方法具有较好的适应性、灵活性和扩展性。
其他文献
随着科技发展,特别是智能小区的出现,传统人工抄表方式抄收效率低,准确度差等弊端已不能满足居民要求,本文在分析现有自动抄表方案优缺点基础上,结合抄表网络固有特点,利用无
计算科学为所有学科向定量化和精确化发展提供了重要基础,结构化网格计算是其中应用极其广泛的计算模式之一。网格计算通常计算访存比较低,对带宽要求很高,在主流HPC平台上普遍
随着现代医疗技术的发展,利用光学原理,无创的脉搏和血氧饱和度检测技术成为监控心血管系统生理状况的重要方法。脉搏血氧仪在临床医疗、老年人和新生儿监护等方面得到广泛应用
视频中广泛地存在着大量的空间冗余和时间冗余,如何消除这些冗余是视频压缩编码研究的重要内容。视频中空间冗余和时间冗余的存在使得视频信号用低秩矩阵的模型来表示成为可能
由于信息技术和网络的发展,通过网络实时上课、做实验已经成为可能。而通信原理实验课程由于真实通信设备昂贵、折旧快、维护费用高,一般采用仿真软件来代替真实实验设备,所
随着计算机应用的范围越来越广,处理问题的规模越来越大,计算机硬件得到了迅速发展,近年来已经进入到多核体系结构、个人高性能计算机、千万亿次并行机的发展阶段。为了适应迅速
目前,政务信息化和企业信息化进入“后建设时代”,基础设施和核心应用系统的建设基本告一段落,IT运维成为了与系统建设并重的一项关键工作。业务服务管理是IT运维管理的高级阶段
在雾、霾等天气条件下,由于大气粒子散射和吸收作用,所获取图像的颜色以及对比度、饱和度严重下降,严重影响户外视觉系统的正常运行以及人们的出行。此外,计算机视觉领域中的诸多
现如今实时数据库(RTDB)已获得越来越广泛的应用,实时数据库必须保持数据对象的一致性约束和保证每一个请求到达系统所规定的时间限制。随着系统存储的数据量越来越大,复杂性
1394B协议是在基于1394A协议的基础上,对速度和技术进行了提升的新一代火线协议,其发展趋势是向军事领域发展,将作为新一代军事领域实验室平台搭建的基础协议。新一代1394B协