论文部分内容阅读
随着互联网时代的到来,如何有效地组织和分析信息,提高人们获取信息的效率,成为满足人们需求的关键问题,这使得多文档文摘技术成为研究热点,其进步推动了相关技术的发展。自动文摘是为了达到特定用户或任务要求,从信息源中提取重要信息、生成精简版本的过程。多文档文摘是针对信息源由多篇关于同一主题文档组成的文档集合。 多文档文摘与单文档文摘相比面临冗余信息多、压缩比大和文摘可读性差等问题。生成一篇好的文摘,不但需要对文档进行深入地分析,还需要有效的文摘句选择与排序。文摘句的选择决定了最终文摘的组成成分,文摘句的排序决定了文摘的可读性,这两者都直接影响生成文摘的质量。评测是自然语言处理技术研究与发展的一个关键部分,评测标准的规范和资源的共享可以使研究成果的比较合理化,对技术的发展起到促进作用。文摘的自动评测一直是个难点,多文档文摘由于引入大量相关、相似信息,进一步增加了评测的难度。针对上述问题,本文从如下几个方面进行了研究: 1.研究了基于主题签名的多文档文摘方法。探讨了基于主题签名的多文档文摘的关键技术,实验验证了基于主题签名的多文档文摘方法的有效性,以及各关键技术对多文档文摘性能的影响。加深对多文档文摘的理解,为后续相关研究提供了很好的基础和实验平台。 2.研究了多文档文摘句选择与排序技术,验证了英文多文档文摘技术向中文的可移植性。首先分析目前多文档文摘句选择方法及存在问题,提出了以文摘结果整体选优为目的采用多候选文摘和两级文摘句选择策略的两种文摘句选择方法,验证了所提方法有效地提高了多文档文摘的性能。其次研究MajorityOrdering句子排序方法及其存在的问题,提出了基于内聚的句子排序方法,在一定程度上避免了话题中断,从而使文摘更加连贯。最后验证了本文提出的英文多文档文摘相关技术在中文文摘上也具有较好的结果。 3.研究了面向文档集合类型的多文档文摘方法。选取具有代表性的多文档文摘方法进行分析,根据文档集合涉及到的事件类型、文档集合涉及的领域分析并指出文档集合类型直接影响多文档文摘方法生成文摘的质量,且多事件文档集合类型是导致多文档文摘质量下降的原因之一,所以提出了一种面向多事件文档集合类型的多文档文摘方法。所提方法通过对文档集合内容主成分获取确定文档集合内容的主线和辅线,并采用基于主线与辅线的文摘句选择方法生成文摘。实验结果表明,所提方法在多事件文档集合上生成的文摘质量与目前好的多文档文摘方法在单一事件文档集合上生成的文摘相当,证明了所提出方法的有效性。 4.研究了基于内容相似度的文摘自动评测方法。着重分析了基于内容完整性的评测方法的优缺点,在此基础上,提出基于内容相似度的文摘自动评测方法。在对较大规模语料进行实验后,引入统计相关分析,验证了该自动评测方法的有效性。对比不同项权重的评测结果,证明了TF-IDF权重信息的引入改善了缺少评测语料的多文档文摘自动评测的质量。 综上所述,本文主要贡献在于从文摘整体选优角度提出了有效的文摘句选择方法。提出了基于内聚的句子排序方法,在一定程度上避免了话题中断,使文摘更加连贯。在一定规模语料上对主流多文档文摘方法分析指出文档集合类型直接影响多文档文摘质量,提出了可行性改进方法。探索文摘自动评测方法,提出并验证了基于内容相似度的文摘自动评测方法的有效性。