基于TextRank算法的单文档自动文摘研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:eline77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代的来临引发了文献的指数级增长,信息用户迅速由信息贫乏过渡到信息过载,传统手工文摘速度已经远远落后于用户的需要。起于1958年的自动文摘研究一直是信息自动处理领域的热点。其中,基于图的自动文摘主要利用文本中的词汇或者语义信息构建拓扑结构图,TextRank是其代表性的算法之一。借鉴了PageRank的算法思想,TextRank算法将文档划分为由若干文本单元(词项或者句子)构成的节点,文本单元间的相似度构成节点间的边,形成图模型,利用PageRank算法对图模型进行迭代直至收敛,然后对所有节点进行排序,输出关键词或文摘句。TextRank算法作为一种无监督方法,无需训练语料,可以运用在多种不同的领域。本文对TextRank算法自动文摘过程中的句子相似度、句子权重计算等部分进行了改进,提出了一种面向英文语料的单文档自动文摘方法。本文的研究工作包括以下几个方面:(1)研究问题。对基于TextRank算法自动文摘的主要步骤进行了梳理与分析,发现预处理以及迭代计算部分已经较为成熟,改进空间有限,而句子相似度以及句子权重计算则尚有较大的提升空间。(2)句子相似度。本文比较了基于编辑距离、WordNet语义词典、BM25以及经典TextRank的相似度算法;分析发现基于BM25相似度计算方法的自动文摘效果最优,同时也发现BM25计算公式中的IDF(si)部分,当n(si)大于N/2时,IDF(si)取负值,从而得到一个取负值的权重。对此,本文提出了两种BM25的改进思路,其一是采用经典TF-IDF计算公式中的IDF计算部分替换BM25原有的IDF(si)计算公式,并对经典IDF计算公式的分母采用拉普拉斯加1平滑;另一则是对BM25原有的IDF(5i)计算公式,当n(si)小于等于N/2时,公式不变,IDF(Si)取正值,当n(si)大于N/2时,用α·avglDF替换原来的公式。其中,a是调节参数(0≤α≤), avgIDF是所有词项的平均IDF值。(3)句子权重。经典TextRank方法考虑了句子的全局信息,但是忽视了句子本身的特征。对此,提出了将句子位置、线索词与经典TextRank加以整合的句子权重计算方案。(4)文摘实验。语料库为DUC2002,具体的工作包括:语料的预处理(分句、分词、词性标注、词项过滤);句子相似性计算;句子权重计算;文摘生成。(5)文摘评价。评价方法采用ROUGE,主要考查了面对不同文摘抽取任务时的表现(100个单词、压缩10%、压缩20%)。实验表明,在ROUGE的各项指标上,本文提出的句子相似度计算方法与句子权重计算方法均比经典TextRank方法有所提高。同时,本文给出了在面对不同文摘抽取任务时BM25改进方法的α取值策略。实验表明,本文改进的基于TextRank算法的单文档自动文摘方法具有一定的创新性与适用性。
其他文献
2007年以来,福贡县按照“生产发展、生活宽裕、乡风文明、村容整洁、管理民主”的新农村建设二十字方针,结合实际认真开展社会主义新农村建设,取得了较好的成效。同时,几年来的实
壮乡富宁,地处越南和云南、广西“两国三省”交汇处,风光旖旎、资源丰富、民风浓郁、人杰地灵,是云南通往广西、广东、港澳和连接东南沿海的重要门户,素有“云南东大门”、“滇粤
空地通信信道的主要统计特性包括多径衰落特性、多普勒功率谱和时延功率谱。将空地通信信道视为"双线模型",推导了用信号平均接收功率和莱斯因子表示的接收信号包络的概率密
芬兰职业健康研究所和赫尔辛基大学的一项最新研究显示,严重超负荷工作会引起人体细胞基因中的染色体端粒缩短,加速机体衰老。这项研究发现,工作疲劳程度不同,员工的白细胞基因染