论文部分内容阅读
随着互联网时代的发展,网页上的信息呈爆炸式的增长,文本摘要技术可以帮助人们从大量的新闻中提炼出文章主旨,过滤冗余信息,加快了人们阅读的速度与质量,节约人们的时间。文本摘要是当前自然语言处理领域的一个研究热点,逐渐得到越来越多研究人员的关注。文本摘要大致可以分为抽取式摘要与理解式摘要,前者抽取出能表示原文主旨的关键句子作为摘要;后者通过提取原文的语义信息,对原文进行改写,进而生成摘要,也是文本摘要的终极目标。目前对于摘要的研究工作主要集中于中、英文领域,而低资源语言如藏文领域,生成摘要与评测摘要的方法都还比较落后,而且语料规模较小,主要通过无监督的方式对人工收集到的一定规模的语料进行摘要抽取,评测方式主要是人为评测,没有标准的评测指标。此外,在中、英文生成式摘要领域效果较好的序列到序列模型没有应用到藏文领域。本文针对藏文新闻摘要进行了研究与分析,主要内容与创新点如下:(1)针对目前藏文缺乏大规模训练语料、评测方式不规范等问题,本文通过爬取5万条藏文新闻作为训练语料,将标题作为生成摘要的参考。而且,本文将传统抽取式摘要方法与理解式摘要方法结合应用在藏文上,并采用目前文本摘要评测标准ROUGE方法进行评测,为藏文新闻摘要生成任务提供了一个可供参考的基线。(2)针对藏文新闻文本过长导致训练过程中的梯度消失与爆炸的问题,本文采用联合模型,将抽取方法与生成方法结合起来,先使用抽取式方法从文章中提炼出能够表达原文主旨的句子,去掉冗余信息,缩短文章长度,然后使用理解式方法生成摘要。实验结果表明,与传统方法相比,采用联合模型生成的ROUGE-1值提高了大约2%。(3)针对联合模型第一阶段缺乏标注好的训练语料的问题,本文使用TextRank算法标注抽取式训练语料,训练抽取式神经网络模型。而且,在联合模型第二阶段的生成式摘要中,本文引入指针机制与覆盖机制来解决藏文的未登陆词以及生成的摘要语义重复等问题。