基于图排序的文档自动摘要

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:duan01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上大量信息的产生被人们称之为信息爆炸,人们已经无法手工对这些海量信息进行处理,因而迫切需要计算机对其进行自动分类、压缩和提炼。文档自动摘要(documentsummarization)作为一项利用计算机对信息进行压缩,提取出文档最主要信息的技术,便成为了一个研究的热点。文档自动摘要的作用主要有两个:一是大量减少阅读时间,通过阅读文档摘要,便可以知道文档的主要内容;二是方便人们进行快速的信息定位,通过阅读文档摘要,便可以快速的判断一篇文档是否是需要的相关文档。自动摘要的难点在于怎样保证产生的摘要能够简洁而又全面地概括文档的主要内容。   文档自动摘要通常基于一个特定的主题,称为基于主题的文档自动摘要(topic-focusedsummarization)。即给定一个描述用户信息需求的主题,从文档中抽取与主题相关的摘要。如果进一步考虑摘要的时效性,即排除用户已经阅读的历史文档内容,从当前文档中抽取与主题相关的新内容,称为更新式文档摘要(updatesummarization)。本文系统地研究这两种形式的文档自动摘要,包括自动摘要模型,算法以及实验评估。主要的研究成果如下:   1.提出了新的基于主题的自动摘要概率模型及算法。基于主题的摘要需满足四个要求:(1)主题相关性(relevance),即保证摘要跟主题相关;(2)无重复性(nonredundancy),即摘要中的句子不应重复冗余;(3)全面性(coverage),即摘要全面涵盖文档内容;(4)平衡性(balance),即摘要内容的主次关系跟文档相一致。我们以图排序作为数学工具并应用聚类方法,对基于主题的摘要进行概率建模。首先我们利用图排序算法对摘要句子的主题概率相关性进行建模,接着按主题的条件概率相关性对摘要的无重复性进行建模,然后运用聚类方法对摘要的全面性和平衡性进行建模,最后把这几个模型统一起来提出一个基于主题的自动摘要算法NCBSum。我们在DUC2005-2007三年标准测试数据集上进行系统的实验评估,实验结果表明NCBSum明显优于该领域主流的相关算法并且接近竞赛系统的最好结果。   2.提出了新的更新式文档自动摘要模型及算法。更新式文档摘要的主要特点是摘要的时效性,即假设用户已经阅读了相关历史文档,最终摘要不应再重复历史文档的内容。我们提出一个新的带约束的图排序算法QCQPSum。在保证主题相关性的前提下,QCQPSum以不等式约束的形式保证时效性。不等式约束按照与历史文档内容的重叠度对现有文档句子得分进行限制,重叠度越高得分越低。我们在DUC的标准测试数据集TAC2008和2009上的实验显示,QCQPSum性能比现有基于图排序的算法具有明显的提高并接近最好的竞赛系统。   3.QCQPSum需要解决一个二次约束的二次规划问题,时间复杂度为NP难。为了提高更新式自动摘要的效率,我们利用带间隔的不等式约束方法,提出了多项式可解的基于图排序的更新式摘要算法QPSum。QPSum不等式约束的原理与QCQPSum类似,但通过在不等式约束中引入间隔,QPSum把二次约束的二次规划问题转换成凸二次规划问题,而后者是多项式时间可解的。研究发现QPSum还可转换成有序图的结点排序算法。在DUC的标准测试数据集TAC2008和2009上的实验显示,QPSum效率显著快于QCQPSum,而且性能与QCQPSum相近,同样明显优于现有的基于图排序的更新式摘要算法。  
其他文献
EAST等离子体控制系统(PCS)继承于DIII-D的等离子体控制系统架构,以等磁通控制作为等离子体位形控制的主要方式,并且利用RT-EFIT程序作为位形控制过程中基本的平衡反演工具。由
数据中心的能效问题受到了越来越多人的关注,降低数据中心的能耗不仅直接关系到降低运营成本,还有助于减少温室气体的排放。MapReduce已经成为了数据中心主要的大规模数据处
随着时代的发展,信息技术已经深入到社会生活的各个领域,软件开发也从最初的小规模作坊模式演变为今天的大规模系统化工程。质量控制、成本管理已不仅仅是软件开发需要考虑的唯
近年来互联网技术和新媒体得到了高速的发展,很多基于新媒体的应用在软件市场上越来越丰富,尤其是视频业务已经成为用户的“新宠儿”。当前市场上,由于终端设备类型的多样化
图像信息的分类器的作用在于识别人脸图像和非人脸图像。对于一个实际使用的分类器,其判断人脸的正确率要求是99.9%以上的精确。而现有的HaarTraining算法能实现分类问题,可以训
图是最通用的数据建模结构之一,被广泛地应用于许多领域,包括社交网络分析、语义网和生物网研究等。随着信息技术的发展和各种互联网应用的出现,各种图结构数据呈爆炸式增长
实时系统和普通计算机系统一样具有满足系统在逻辑计算中完全止确的特性,还需具有任务在其结束时间限前必须完成执行的特殊特性。实时系统具有的计算准确性和完成任务及时性,
随着网络的发展,人们对传统的通信技术(CT)已不再满足,以IP网络为基础的信息通信技术(IT)展现出了强大的生命力,为改善人们的通信体验,将CT与IT进行统一的信息整合技术-统一
学位
在仪器设备数量和类型不断增长的趋势下,越来越多的高校、科研院所和公司都开发了专用的仪器设备管理系统来取代人工管理模式。仪器设备管理系统的广泛应用,极大的提高了设备