论文部分内容阅读
互联网上大量信息的产生被人们称之为信息爆炸,人们已经无法手工对这些海量信息进行处理,因而迫切需要计算机对其进行自动分类、压缩和提炼。文档自动摘要(documentsummarization)作为一项利用计算机对信息进行压缩,提取出文档最主要信息的技术,便成为了一个研究的热点。文档自动摘要的作用主要有两个:一是大量减少阅读时间,通过阅读文档摘要,便可以知道文档的主要内容;二是方便人们进行快速的信息定位,通过阅读文档摘要,便可以快速的判断一篇文档是否是需要的相关文档。自动摘要的难点在于怎样保证产生的摘要能够简洁而又全面地概括文档的主要内容。
文档自动摘要通常基于一个特定的主题,称为基于主题的文档自动摘要(topic-focusedsummarization)。即给定一个描述用户信息需求的主题,从文档中抽取与主题相关的摘要。如果进一步考虑摘要的时效性,即排除用户已经阅读的历史文档内容,从当前文档中抽取与主题相关的新内容,称为更新式文档摘要(updatesummarization)。本文系统地研究这两种形式的文档自动摘要,包括自动摘要模型,算法以及实验评估。主要的研究成果如下:
1.提出了新的基于主题的自动摘要概率模型及算法。基于主题的摘要需满足四个要求:(1)主题相关性(relevance),即保证摘要跟主题相关;(2)无重复性(nonredundancy),即摘要中的句子不应重复冗余;(3)全面性(coverage),即摘要全面涵盖文档内容;(4)平衡性(balance),即摘要内容的主次关系跟文档相一致。我们以图排序作为数学工具并应用聚类方法,对基于主题的摘要进行概率建模。首先我们利用图排序算法对摘要句子的主题概率相关性进行建模,接着按主题的条件概率相关性对摘要的无重复性进行建模,然后运用聚类方法对摘要的全面性和平衡性进行建模,最后把这几个模型统一起来提出一个基于主题的自动摘要算法NCBSum。我们在DUC2005-2007三年标准测试数据集上进行系统的实验评估,实验结果表明NCBSum明显优于该领域主流的相关算法并且接近竞赛系统的最好结果。
2.提出了新的更新式文档自动摘要模型及算法。更新式文档摘要的主要特点是摘要的时效性,即假设用户已经阅读了相关历史文档,最终摘要不应再重复历史文档的内容。我们提出一个新的带约束的图排序算法QCQPSum。在保证主题相关性的前提下,QCQPSum以不等式约束的形式保证时效性。不等式约束按照与历史文档内容的重叠度对现有文档句子得分进行限制,重叠度越高得分越低。我们在DUC的标准测试数据集TAC2008和2009上的实验显示,QCQPSum性能比现有基于图排序的算法具有明显的提高并接近最好的竞赛系统。
3.QCQPSum需要解决一个二次约束的二次规划问题,时间复杂度为NP难。为了提高更新式自动摘要的效率,我们利用带间隔的不等式约束方法,提出了多项式可解的基于图排序的更新式摘要算法QPSum。QPSum不等式约束的原理与QCQPSum类似,但通过在不等式约束中引入间隔,QPSum把二次约束的二次规划问题转换成凸二次规划问题,而后者是多项式时间可解的。研究发现QPSum还可转换成有序图的结点排序算法。在DUC的标准测试数据集TAC2008和2009上的实验显示,QPSum效率显著快于QCQPSum,而且性能与QCQPSum相近,同样明显优于现有的基于图排序的更新式摘要算法。