论文部分内容阅读
问题生成是自然语言处理领域中的一个任务,在对话系统、教育及对问答数据集的扩充里都扮演了重要的角色。如今大量知识库的建立使得问题生成的研究变得更加热门,也使得生成问题的质量变得越来越高。本文为解决从知识库中自动生成复合型问题这一任务,提出了一种基于多源协同注意力机制的神经网络模型。在之前的工作中,有基于单个主谓宾三元组来生成问题的方法。但是在本文课题中是需要对多个三元组里的实体之间的关系进行建模,然后可以输出包含多个实体的问题即复合型问题。如果使用基于模板的方法,那么可能会受限于灵活性不足这一缺点,并且需要大量的人力来设计良好的模板,从而提高生成问题的质量。而基于简单神经网络模型的方法也不足以解决本文课题,因为本文中的复合型问题的语言结构和模式是复杂和多样的。因此本文提出了基于多源协同注意力机制的编码器—解码器网络。其中编码器采用了一个统一的双向长短期记忆网络和协同注意力机制,对多个三元组组成的文本序列分别进行编码。而解码器采用分层注意力机制来融合编码器的输出以生成复合型问题。与此同时,本文还引入了关注答案的解码模块,以减少生成问题的疑问类型与答案不匹配的现象。本文在最近发布的FreebaseQA数据集上进行了充分的实验,以简单的端到端的基准模型和本文所提模型的变种作对比。相较于无注意力机制的序列到序列的基准模型(K2Q-RNN),本文所提模型BLEU-4得分提升81.9%,ROUGE-L得分提升21.1%,Dist-1得分提升24.4%,Dist-2得分提升102.7%,Ent-4得分提升18.8%,可回答性得分提升88.2%,忠实性得分提升77.9%,自然性得分提升34.4%,丰富性得分提升63.9%。相较于去除关注答案的解码模块的模型变种(MCN),本文所提模型使得生成问题的疑问类型召回率平均提升3.4%,其中对于where和how类型的召回率提升高达13.3%和9.8%。