论文部分内容阅读
随着网络的发展,信息获取变得越来越容易,人们日常所需要处理的信息量也越来越大。如何从众多的文档中提取出重要的信息,以帮助人们做快速的浏览和撷取,是一项迫切的任务。多文档摘要技术因此而成为了最近几年的研究热点。本文主要研究的是抽取式通用型多文档摘要,提出了一种基于生成性文本主题概率模型的多文档摘要技术,和一种基于排序学习的多文档摘要技术。本文的主要贡献有以下几点:1.在一个贪婪算法的框架内研究了如何利用主题特征生成高质量的多文档摘要。在这种框架下,句子的选取最终归结为度量每个句子对摘要的主题构建的贡献大小。使用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)模型为句子建模,以捕捉深层次的主题信息。通过分析摘要任务中文本和摘要的内在关系,我们将之量化为一种概率表示,并在此基础上提出了两种有效的句子打分方法。在DUC2002会议中使用的通用性多文档文摘测试集上做了实验,使用ROUGE自动评测工具对各种方作做了评估。结果表明,我们的方法优于单纯基于词频的方法和其他使用了主题模型的方法。2.提出了一种通过学习摘要质量预测函数来搜索高质量摘要的新思路。传统的方法所显式或隐式地使用的质量预测函数都是启发式的,缺乏客观性。我们认为如果没有一个客观的摘要质量预测函数,对高质量摘要的搜索总有些盲目。本文中,我们讨论了这种预测函数的可能的形式,论证了获取这样一个客观的预测函数的必要性和可行性,分析了学习这种预测函数对摘要质量底层特征的要求和一些量化的择优方法,并展望了这种较为客观的摘要预测函数的使用方法。3.我们设计了一种学习预测函数的方法,并在此之上构建了一个自动摘要系统RBSS。我们借鉴IR&ML领域的排序学习方法,学习得到一个排序函数。不同于可以预测摘要质量分值的回归函数,我们所学到的排序函数只能够按照摘要的质量对其做个排序。我们认为这种按质量高低给出的顺序就可以帮助我们做高质量摘要的搜索。我们在基本的一元词频和其在句内的共现信息上,设计了四个排序特征。这些特征有较好的鲁棒性,不会随原文的改动而对排序函数造成大的影响。我们设计了一种效果很好的训练集的构造方法。在这些工作的基础上,我们构建了RBSS。RBSS使用遗传规划作为高质量摘要的搜索算法,其中每个摘要的适应度由当时其在总体中的排名位置决定,而该顺序则由学习得到的排名函数给出。我们在DUC2002数据集上用ROUGE工具做了评估,我们的方法生成的摘要比当年会议上最好的系统所得ROUGE分值还高。