论文部分内容阅读
互联网技术的快速发展产生了数据爆炸和信息过载的问题,同时现代生活节奏的加快催生了用户快速阅读的需求,使得文本自动摘要技术成为了当今科学界的研究热点。相比其他自然语言处理任务,自动摘要技术的挑战在于摘要的评价指标无法精准量化,极具主观性,而且自动摘要往往深受冗余信息的困扰。目前主流的自动摘要算法是通过预先定义某个指标,对所有句子进行打分,然后对句子排序并抽取top-k作为生成摘要。然而这些抽取排序模型一方面对句子独立打分,孤立了句子之间的联系,忽略了文章的结构信息;一方面选取的评分指标通常是词素级别或者统计特征,缺乏语义信息。针对这些缺点,我们设想一个高质量的摘要能够很好地还原原文的语义,进而提出了语义重构模型:通过寻找能够以最小损失重构原文语义的句子集作为最后的生成摘要。本文的工作主要包括两个方面:(1)针对词袋模型的高维稀疏、缺乏语义信息的现象,设计了两种简单有效的语义向量化方式表示文本,分别是基于神经语言模型的词嵌入加权方法和基于多层自编码网络的深度降维方法。并通过句子分类实验证明了这两种向量化方式都能得到紧凑且具有语义的文本表示。(2)分别设计了基于二次规划的线性重构策略和更为平滑灵活的非线性重构策略,以得到能最佳还原原文的句子并作为结果摘要。另外通过冗余消减手段在改进了重构策略并提高了摘要质量。最后在DUC标准数据集上的摘要实验对比,证明了本文的语义重构模型的合理性和有效性。