论文部分内容阅读
问题生成旨在通过输入文本序列、创建类似人类提出的问题。原有基于规则的方法效果不佳,一方面是因为基于规则的方法主要通过大量人工构造的规则,将陈述句转化为问句,此种方法转换的问题过于简单。另一方面是因为基于规则的方法无法像人类提问那样具有创造性和多样性。近几年,基于序列到序列的问题生成逐渐成为自然语言生成领域新的研究热点,同时随着许多富含语义知识的预训练模型的提出,预训练语言模型和微调在问题生成方面取得了巨大的成功。但是,目前生成的问题距离应用仍然有很远的距离。因此,研究问题生成提高其生成问题的性能具有重大的现实意义。区别于传统的基于规则的方法,基于序列到序列的问题生成方法和基于预训练语言模型的问题生成方法都是端到端的方法。我们将从以下几个方面进行研究:(1)基于双编码与门控注意力机制的问题生成。现有的问题生成方法主要基于序列到序列的框架,通过编码器对句子语义进行编码,然后将编码后的语义信息输入解码器生成相应的问句,本文针对基于序列到序列的问题生成方法编码器无法有效地提取输入序列和答案之间的交互信息提出了基于双编码器与门控注意力机制的问题生成方法。(2)基于最大输出指针与答案屏蔽的问题生成。本文针对基于序列到序列的问题生成方法,解码过程无法生成高质量问题,提出了基于最大输出指针与答案屏蔽的问题生成方法。(3)基于预训练语言模型编码器的问题生成。人类提问时,先理解输入信息,然后再利用已有的知识重新组织语言,提出问题。预训练语言模型在大量的无标注数据上进行了训练,相较于基于序列到序列的问题生成方法拥有较多预先知识,在理解输入序列的意义时能捕获到更多的信息,同时生成问题时,因为具有更多的知识,生成的问题语言更丰富。本文引入了预训练语言模型作为编码器来加强提取输入序列的信息,提升问题生成的效果。(4)基于端到端的问题生成系统设计与实现。基于前三章研究内容,设计并实现一个基于端到端问题生成系统方便访问使用,将模型的预测结果进行了可视化。通过问题生成系统的实际使用,得到更加直观的问题生成效果。