深度学习大模型时代的自然语言生成技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：mybestlove_nx

【摘要】

：

【作者】

：

廖俊伟

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近期,Open AI的对话式通用人工智能工具Chat GPT横空出世,表现出了令人惊艳的语言理解、文本生成和知识推理能力。它能够很好地理解用户意图,进行有效的多轮沟通,并且回答内容充实、条理分明、逻辑清晰,大大超出了人们对现阶段人工智能的预期。上线仅2个月活跃用户数已到达1个亿,成为历史上增长最快的消费级应用程序。除了被广大用户追捧外,Chat GPT还受到了各国政府、企业界、学术界的广泛关注,掀起了大型互联网公司之间新一轮的人工智能军备竞赛,给各行各业带来了无限的想象空间。Chat GPT不仅在在商业上取得了巨大的成功,更为重要的是,它使人们看到解决自然语言处理这一认知智能核心问题的一条可行路径,并被认为向通用人工智能迈出了坚实的一步,甚至将颠覆很多领域和行业,取代很多人的工作。Chat GPT可以说是自然语言处理技术发展到深度学习大模型时代最具代表性的大模型之一。大模型带来了新的发展契机,同时围绕其特点也产生了一系列新的研究问题。从机器学习的两大组成要素——模型和数据来看,大模型主要具有以下特点:从模型角度看,一方面模型通过不断扩大参数规模来存储海量的知识并“涌现”出新的能力,另一方面通过使用提示的方法将自然语言理解和自然语言生成任务从形式上统一为自然语言生成任务来提供更友好的人机接口;从数据角度看,一方面使用大规模的无标注数据预训练模型使其掌握世界知识,另一方面使用少量高质量的标注数据迅速提升其在用户关注领域的性能以达到实用的程度。基于大模型的上述特点,本文着眼于深度学习大模型时代的模型与数据的研究,以具有代表性的自然语言生成任务为切入点,针对现阶段模型与数据面临的一些关键问题提出了有效的解决方案,探索合适的模型结构与数据方法,提升系统的性能和实用性。本文的研究内容和主要贡献如下:（1）针对模型在多任务学习中的负迁移现象,本文提出了一种基于稀疏激活的通用自然语言生成模型。模型在执行任务时,首先根据任务预先定义一组完成任务需要的技能,然后根据定义的技能选择性地激活与技能相关的模型参数。这种稀疏化的模型设计能够通过引入先验知识来进行高效地多任务学习,避免不相关任务之间的相互干扰。在多任务文本生成任务上的实验结果表明,提出的方法有效改善了多任务学习中的负迁移现象,在多个任务上取得了优于传统稠密模型的性能。（2）针对模型无法快速添加对新任务支持的问题,本文引入模块化思想对所有任务共享参数的一体化模型进行改造。改造后的模型具有模块化的优良性质,能够随新增任务动态的添加任务支持模块。在为模型添加新任务支持时,该方法只需对新添加的模块在新增的任务数据上训练,无需重新训练整个模型,极大的节省了时间与成本,缩短了模型的上线部署时间。此外,添加的模块通过对原有模型进行扩容,缓解了原来参数规模固定的模型带来的容量瓶颈问题。在多语言机器翻译任务上的实验结果表明,提出的方法使模型能够快速增加对新语言的支持,同时保持原本支持语言之间的翻译性能。（3）针对任务训练数据缺乏的问题,本文提出了一种跨模态转换的数据增强方法用于合成大量的训练数据。该方法使用跨模态转换的方法利用与目标任务近似的任务数据获取大量合成数据用于模型的训练,有效缓解了缺乏任务标注数据带来的过拟合问题。另外,通过两阶段训练策略来使用合成数据与标注数据,在充分利用含有噪声的合成数据的同时,最大程度削弱了数据中噪声带来的影响。在语音识别后处理任务上的实验结果表明,提出的方法大幅提升了语音识别后处理模型的性能,能够生成具有高可读性的文本。（4）针对新任务数据人工标注困难的问题,本文提出了一种人机协作的数据构建方法用来构建大规模的新任务数据集。该方法结合自动生成与人工评判的半自动方法来构建使用传统人工标注方法难以标注的任务数据。该方法解决了某些全新的自然语言生成任务人工标注数据困难的问题,能够以少量的人力成本投入获得大量符合一定质量标准的任务标注数据。在文本润色任务上使用该方法构建了大规模的任务数据集,为文本润色这一新颖实用的自然语言生成任务的进一步研究奠定了基础。

其他文献

地热供暖研究及应用

地热资源是一种十分环保的能源,利用其进行供暖可以在一定程度上缓解我国的环境问题。地热供暖可以分为直接供暖和间接供暖,目前常见的地热供暖技术有:水热型地热供暖技术、地源热泵供暖技术以及干热岩供暖技术。地热供暖在我国已经得到了多地的实际应用,并且经济效益显著。

会议

医疗健康圈探路大模型

报纸

国家安全学学科建设的探索、问题与纾解

时代巨变，国家安全学学科建设是国家安全教育推进的“排头兵”和“桥头堡”，承载着“急建+建好”的国家战略需求使命。纵观当前本学科建设情况，虽然在构建学科知识体系、学术话语体系、人才培养体系、学科建设平台等方面进行了有益探索，但总体上面临着学科性质定位比较混乱、基础理论支撑较为薄弱、管理机制依旧不畅、人才培养尚待优化、保障基础配套欠缺等突出现实问题。急需总结前期建设的经验教训，凝聚共识，坚持总体国家安

期刊

多国不断强化“洋垃圾”治理

报纸

坚决将“洋垃圾”封堵于国门之外

报纸

发展中国家对“洋垃圾”说“不”

报纸

小学高学段数学教学培养学生推理思维的策略研究

《义务教育数学课程标准（2022年版）》强调学生核心素养的发展,致力于实现数学课程的育人价值。推理既是数学核心素养的重要组成部分,同时也是数学的基本思维方式,贯穿义务教育阶段数学学习活动过程的始终。数学推理思维是学生运用数学的思维思考现实世界的方式,小学生数学推理思维的培养是一个循序渐进的过程,小学高学段是培养学生数学推理思维的关键期。因此,研究针对小学高学段学生数学推理思维的培养,展开理论研究和

学位

基于多模态的输送带撕裂大模型算法设计

AI矿山大模型是一种基于人工智能的矿山智能化解决方案，利用大数据、深度学习、机器学习等技术，可以帮助矿山企业提高生产效率和安全性。在输送带撕裂检测方面，基于AI矿山大模型设计了基于Transformer处理多模态数据的一种网络结构，提出了DETR-Audio模型，将视频和音频的多模态数据拼接、融合，采用DERT模型对视频进行编码，利用短时傅里叶变换对音频信号进行时频谱分析，再对两者的特征向量进行拼

期刊

基于CiteSpace的国内标准化护理术语研究可视化分析

目的探讨我国标准化护理术语的研究热点及发展轨迹，为深入推广、应用标准化护理术语提供参考。方法对中国知网数据库中标准化护理术语文献进行检索，利用CiteSpace软件分析年发文量、作者、研究机构、关键词共现等。结果共纳入1 189篇文献，发文量总体呈上升趋势，作者及机构间未形成紧密的合作网络。研究热点主要集中在生活质量、护理结局、护理措施、脑卒中、糖尿病、肝癌等领域。结论国内标准化护理术语研

期刊

运载火箭姿态控制多任务通用设计方法

运载火箭姿态控制设计对于每发不同的任务需求,控制参数需要重新设计,周期长、效率低,难以满足当前高密度发射的需求。通过分析多发火箭任务对应的箭体特性,在设计参数上采取自适应控制方法,并对在运载火箭姿态控制上的应用进行了仿真分析。仿真结果与目前经典姿控方法结论比较表明:研究的设计方法能有效适应多任务的姿态控制,可以在多任务密集背景下无需每次重新设计,通用同一套控制参数调整策略。面对高密度发射情况或任务

期刊

深度学习大模型时代的自然语言生成技术研究

与本文相关的学术论文