论文部分内容阅读
近期,Open AI的对话式通用人工智能工具Chat GPT横空出世,表现出了令人惊艳的语言理解、文本生成和知识推理能力。它能够很好地理解用户意图,进行有效的多轮沟通,并且回答内容充实、条理分明、逻辑清晰,大大超出了人们对现阶段人工智能的预期。上线仅2个月活跃用户数已到达1个亿,成为历史上增长最快的消费级应用程序。除了被广大用户追捧外,Chat GPT还受到了各国政府、企业界、学术界的广泛关注,掀起了大型互联网公司之间新一轮的人工智能军备竞赛,给各行各业带来了无限的想象空间。Chat GPT不仅在在商业上取得了巨大的成功,更为重要的是,它使人们看到解决自然语言处理这一认知智能核心问题的一条可行路径,并被认为向通用人工智能迈出了坚实的一步,甚至将颠覆很多领域和行业,取代很多人的工作。Chat GPT可以说是自然语言处理技术发展到深度学习大模型时代最具代表性的大模型之一。大模型带来了新的发展契机,同时围绕其特点也产生了一系列新的研究问题。从机器学习的两大组成要素——模型和数据来看,大模型主要具有以下特点:从模型角度看,一方面模型通过不断扩大参数规模来存储海量的知识并“涌现”出新的能力,另一方面通过使用提示的方法将自然语言理解和自然语言生成任务从形式上统一为自然语言生成任务来提供更友好的人机接口;从数据角度看,一方面使用大规模的无标注数据预训练模型使其掌握世界知识,另一方面使用少量高质量的标注数据迅速提升其在用户关注领域的性能以达到实用的程度。基于大模型的上述特点,本文着眼于深度学习大模型时代的模型与数据的研究,以具有代表性的自然语言生成任务为切入点,针对现阶段模型与数据面临的一些关键问题提出了有效的解决方案,探索合适的模型结构与数据方法,提升系统的性能和实用性。本文的研究内容和主要贡献如下:(1)针对模型在多任务学习中的负迁移现象,本文提出了一种基于稀疏激活的通用自然语言生成模型。模型在执行任务时,首先根据任务预先定义一组完成任务需要的技能,然后根据定义的技能选择性地激活与技能相关的模型参数。这种稀疏化的模型设计能够通过引入先验知识来进行高效地多任务学习,避免不相关任务之间的相互干扰。在多任务文本生成任务上的实验结果表明,提出的方法有效改善了多任务学习中的负迁移现象,在多个任务上取得了优于传统稠密模型的性能。(2)针对模型无法快速添加对新任务支持的问题,本文引入模块化思想对所有任务共享参数的一体化模型进行改造。改造后的模型具有模块化的优良性质,能够随新增任务动态的添加任务支持模块。在为模型添加新任务支持时,该方法只需对新添加的模块在新增的任务数据上训练,无需重新训练整个模型,极大的节省了时间与成本,缩短了模型的上线部署时间。此外,添加的模块通过对原有模型进行扩容,缓解了原来参数规模固定的模型带来的容量瓶颈问题。在多语言机器翻译任务上的实验结果表明,提出的方法使模型能够快速增加对新语言的支持,同时保持原本支持语言之间的翻译性能。(3)针对任务训练数据缺乏的问题,本文提出了一种跨模态转换的数据增强方法用于合成大量的训练数据。该方法使用跨模态转换的方法利用与目标任务近似的任务数据获取大量合成数据用于模型的训练,有效缓解了缺乏任务标注数据带来的过拟合问题。另外,通过两阶段训练策略来使用合成数据与标注数据,在充分利用含有噪声的合成数据的同时,最大程度削弱了数据中噪声带来的影响。在语音识别后处理任务上的实验结果表明,提出的方法大幅提升了语音识别后处理模型的性能,能够生成具有高可读性的文本。(4)针对新任务数据人工标注困难的问题,本文提出了一种人机协作的数据构建方法用来构建大规模的新任务数据集。该方法结合自动生成与人工评判的半自动方法来构建使用传统人工标注方法难以标注的任务数据。该方法解决了某些全新的自然语言生成任务人工标注数据困难的问题,能够以少量的人力成本投入获得大量符合一定质量标准的任务标注数据。在文本润色任务上使用该方法构建了大规模的任务数据集,为文本润色这一新颖实用的自然语言生成任务的进一步研究奠定了基础。