论文部分内容阅读
随着体育直播平台的发展,足球比赛直播室出现了大量足球直播文本;同时,移动端阅读的兴起,使足球比赛新闻的需求量也大幅提高。直播文本是对比赛的实时过程加以口语化的描述,冗长且重点模糊;而足球比赛新闻则是对足球比赛中事实的概括性报导,一般简短而且着重于重点事件。人工撰写足球比赛新闻会花费较多时间并影响新闻的实时性。一般来说,足球直播文本中包含了这场比赛中的绝大部分信息,而本文的研究重点就是基于直播文本中的重要信息生成足球比赛新闻。文本将足球比赛新闻生成看作文本摘要任务,而传统文本摘要方法在足球领域会出现重要信息丢失、可读性低等问题。为解决这些问题,本文将足球比赛新闻生成细分为三个部分:(1)基于球员、球队数据与句子模板生成足球比赛新闻的概述和结尾;(2)采用分类模型,从人工标注的直播文本抽取句子;(3)基于抽取句和序列到序列模型的复述句生成。本文提出了基于直播文本与注意力编解码模型的足球比赛新闻生成方法,该方法首先基于极限梯度提升树、卷积神经网络等分类模型与文本特征从比赛直播文本中抽取句子;随后使用基于注意力模型与双向长短时记忆网络的编解码模型对抽取句做复述句生成;最后结合句子模板与复述句,在尽可能召回重要事件的前提下,提升文章的可阅读性。本文抽取并选择适合足球领域的文本特征,将多种机器学习模型与足球比赛新闻生成任务相结合,使用基于规则的句子模板来提升最终生成的足球比赛新闻质量。实验结果表明,采用本文提出的方法从足球比赛的直播文本生成足球比赛新闻是可行的。