基于端到端的问题生成方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lmwtz0x8u0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问题生成旨在通过输入文本序列、创建类似人类提出的问题。原有基于规则的方法效果不佳,一方面是因为基于规则的方法主要通过大量人工构造的规则,将陈述句转化为问句,此种方法转换的问题过于简单。另一方面是因为基于规则的方法无法像人类提问那样具有创造性和多样性。近几年,基于序列到序列的问题生成逐渐成为自然语言生成领域新的研究热点,同时随着许多富含语义知识的预训练模型的提出,预训练语言模型和微调在问题生成方面取得了巨大的成功。但是,目前生成的问题距离应用仍然有很远的距离。因此,研究问题生成提高其生成问题的性能具有重大的现实意义。区别于传统的基于规则的方法,基于序列到序列的问题生成方法和基于预训练语言模型的问题生成方法都是端到端的方法。我们将从以下几个方面进行研究:(1)基于双编码与门控注意力机制的问题生成。现有的问题生成方法主要基于序列到序列的框架,通过编码器对句子语义进行编码,然后将编码后的语义信息输入解码器生成相应的问句,本文针对基于序列到序列的问题生成方法编码器无法有效地提取输入序列和答案之间的交互信息提出了基于双编码器与门控注意力机制的问题生成方法。(2)基于最大输出指针与答案屏蔽的问题生成。本文针对基于序列到序列的问题生成方法,解码过程无法生成高质量问题,提出了基于最大输出指针与答案屏蔽的问题生成方法。(3)基于预训练语言模型编码器的问题生成。人类提问时,先理解输入信息,然后再利用已有的知识重新组织语言,提出问题。预训练语言模型在大量的无标注数据上进行了训练,相较于基于序列到序列的问题生成方法拥有较多预先知识,在理解输入序列的意义时能捕获到更多的信息,同时生成问题时,因为具有更多的知识,生成的问题语言更丰富。本文引入了预训练语言模型作为编码器来加强提取输入序列的信息,提升问题生成的效果。(4)基于端到端的问题生成系统设计与实现。基于前三章研究内容,设计并实现一个基于端到端问题生成系统方便访问使用,将模型的预测结果进行了可视化。通过问题生成系统的实际使用,得到更加直观的问题生成效果。
其他文献
目的:通过评价七氟醚后处理对糖尿病大鼠缺血再灌注心肌线粒体融合蛋白1(Mfn1)表达的影响,观察在正常大鼠与糖尿病大鼠心肌缺血再灌注七氟醚后处理条件下线粒体融合蛋白1的表
“开朗、正面、积极”是思想品德教育中经常听到的说教,以致我们的耳朵对这几个词几乎长起了抵挡的老茧!久而久之,我们对这些词麻木,并且在面对人生的许多不如意和社会许多不公
重庆是我国烟叶主产区之一,品种单一是制约重庆烟叶发展的主要因素之一。烤烟新品系CF8704是重庆自主选育的,能适应重庆产区生态条件、彰显本土醇甜香风格的烤烟新品系,即将
目的探讨术前动脉灌注化疗在进展期结、直肠癌综合治疗中的作用。方法将进展期结、直肠癌80例随机分成术前动脉灌注化疗组(观察组)和常规治疗组(对照组)各40例,观察两组病人化疗后
蒙阴县是山区农业县,林果业是当地农村经济的主导产业。蒙阴县还是全国果品生产十强县,它的林果面积达100万亩,其中蜜桃就达到65万亩。蒙阴蜜桃色泽艳、糖分多、口感好,成为全国
对于孔子何时开始深入研究学习《周易》的问题,学术界一直存在不同的看法,至今也没有定论。本文在综合已有史料及研究的基础上,论证孔子学《易》必在68岁“自卫返鲁”之后。
为了使资源的供应满足飞速发展的世界形势,对可再生资源的开发和应用具有很强的现实意义。光伏发电具有丰富的储备、相关设备易于安装、维修成本低廉等独特的优点,在全球许多
随着我国经济快速增长,城市化进程加快,高速公路在国家现代化经济体系建设和人们出行中承担起越来越重要的角色。近年来,高速公路的大量建成通车、交通量的持续攀升以及重载
从压力分配阀原理入手,针对性能检查参数,设计了压力分配阀检测装置安装座和进行液压能控制与调节的液压管路。实践中可以进行压力分配阀的密封性、差动刹车和流阻测量,满足
伴随机器视觉技术的发展以及无人机技术的不断进步,利用无人机快速进行地形重建、设施管理、动态监测的方法不断在包括水利工程在内的各类工程建设项目中得到推广应用。本研