论文部分内容阅读
随着移动互联网的迅速发展,网络中的新闻资源呈现指数级数量增长,为新闻生成一条能够直观的体现新闻主题内容的新闻标题,可以使得读者快速浏览新闻内容,准确选择自己感兴趣的内容,节约阅读时间成本,给读者带来良好的阅读体验。事实上,在市场上众多新闻客户端中推荐的新闻内容的标题往往存在着题不答意、模式化、滥用新词语和庸俗化等问题,使得读者不能有效获取自己感兴趣的新闻内容,影响了这些新闻客户端的阅读体验。在实际的应用中,可以使用自动文本摘要技术为网络中的新闻产生一条准确、流畅且简洁的新闻标题。自动文本摘要技术是利用计算机自动地从原始文档中生成摘要,摘要是可以准确全面地反映某一文献中心内容的简洁连贯的短文。根据实现方式的不同分为摘录式和理解式,其中摘要式自动文本摘要是使用不同的形式对原始文档的中心内容和概念的重新表示,其生成摘要中的词语不需要与原始文本相同。本文研究讨论的应用于新闻标题生成的神经网络就是一种摘要式自动文本摘要系统。在本文中讨论的自动文本摘要系统使用了基于循环神经网络的带注意力机制的序列到序列模型的具体模型结构,以及在得到最终训练模型完成后,如何生成。针对使用带注意力机制的序列到序列模型的自动文本摘要系统中存在的问题,本文对其进行了改进。针对现有模型中对生成摘要中词语不准确,特别是难以处理未登录词问题,提出使用指针生成网络来使得模型在具有从固定大小的词汇表中生成新词语的能力外还具有从原始文本中选择词语的能力,从而有效解决原有的基于带注意力机制的序列到序列模型中生成摘要中词语不准确和未登录此现象的产生。而对于基于带注意力机制的序列到序列模型的自动文本摘要系统在生成摘要的过程中存在内容重复现象,特别是在原始文本较长的情况下这一现象特别严重的问题,本文提出使用在机器翻译任务中使用的覆盖机制来解决这一问题,并对覆盖机制针对自动文本摘要任务进行了适当修改。此外,通过在分析新闻标题生成的过程中,使得模型结合了文本分类任务,通过多任务的方式提高了模型生成新闻标题的质量,事实上,在与文本分类任务相结合的模型在完成文本分类问题的同时,也使得其自动文本摘要的模型部分捕获到了不同类别新闻在生成标题中的写作风格特点。最后,在本文中对自动文本摘要任务使用的最小处理单元进行讨论,分析了使用词语级文本处理和使用汉字级文本处理的优缺点,并对其在训练模型时巨大的计算量提出使用分层softmax和负采样的方式进行解决,并比较了两种方案的性能情况。