论文部分内容阅读
信息时代的来临引发了文献的指数级增长,信息用户迅速由信息贫乏过渡到信息过载,传统手工文摘速度已经远远落后于用户的需要。起于1958年的自动文摘研究一直是信息自动处理领域的热点。其中,基于图的自动文摘主要利用文本中的词汇或者语义信息构建拓扑结构图,TextRank是其代表性的算法之一。借鉴了PageRank的算法思想,TextRank算法将文档划分为由若干文本单元(词项或者句子)构成的节点,文本单元间的相似度构成节点间的边,形成图模型,利用PageRank算法对图模型进行迭代直至收敛,然后对所有节点进行排序,输出关键词或文摘句。TextRank算法作为一种无监督方法,无需训练语料,可以运用在多种不同的领域。本文对TextRank算法自动文摘过程中的句子相似度、句子权重计算等部分进行了改进,提出了一种面向英文语料的单文档自动文摘方法。本文的研究工作包括以下几个方面:(1)研究问题。对基于TextRank算法自动文摘的主要步骤进行了梳理与分析,发现预处理以及迭代计算部分已经较为成熟,改进空间有限,而句子相似度以及句子权重计算则尚有较大的提升空间。(2)句子相似度。本文比较了基于编辑距离、WordNet语义词典、BM25以及经典TextRank的相似度算法;分析发现基于BM25相似度计算方法的自动文摘效果最优,同时也发现BM25计算公式中的IDF(si)部分,当n(si)大于N/2时,IDF(si)取负值,从而得到一个取负值的权重。对此,本文提出了两种BM25的改进思路,其一是采用经典TF-IDF计算公式中的IDF计算部分替换BM25原有的IDF(si)计算公式,并对经典IDF计算公式的分母采用拉普拉斯加1平滑;另一则是对BM25原有的IDF(5i)计算公式,当n(si)小于等于N/2时,公式不变,IDF(Si)取正值,当n(si)大于N/2时,用α·avglDF替换原来的公式。其中,a是调节参数(0≤α≤), avgIDF是所有词项的平均IDF值。(3)句子权重。经典TextRank方法考虑了句子的全局信息,但是忽视了句子本身的特征。对此,提出了将句子位置、线索词与经典TextRank加以整合的句子权重计算方案。(4)文摘实验。语料库为DUC2002,具体的工作包括:语料的预处理(分句、分词、词性标注、词项过滤);句子相似性计算;句子权重计算;文摘生成。(5)文摘评价。评价方法采用ROUGE,主要考查了面对不同文摘抽取任务时的表现(100个单词、压缩10%、压缩20%)。实验表明,在ROUGE的各项指标上,本文提出的句子相似度计算方法与句子权重计算方法均比经典TextRank方法有所提高。同时,本文给出了在面对不同文摘抽取任务时BM25改进方法的α取值策略。实验表明,本文改进的基于TextRank算法的单文档自动文摘方法具有一定的创新性与适用性。