教学相长:深度学习中的机器教与学的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lihua1114110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,得益于深度学习技术的快速进步和硬件性能的不断提升,人工智能技术得到了迅猛发展,并在多个研究领域得到了广泛应用。深度学习技术通常基于深度神经网络模型并使用反向传播算法优化,自动从数据中学习隐藏的特征和分布规律。随着深度学习技术的不断发展,模型结构与学习算法的复杂性逐渐提升,研究者针对目标任务设计深度学习流程的过程也逐渐复杂。对于特定的深度学习任务,包含了数据的预处理、机器学习模型和算法的设计、超参数的调整等步骤。这些步骤既需要机器学习领域的专业知识,又需要目标任务领域的专业知识,导致了深度学习技术对于非专业人士的应用门槛较高。研究者们提出了多种自动化机器学习算法,旨在自动学习出针对特定任务的学习流程,从而降低深度学习技术的应用门槛和算法设计的人力开销,例如元学习、神经网络结构搜索等。然而,传统的自动化机器学习算法存在下述四个关键问题:1)学习效率较差,影响技术的广泛应用;2)研究通常局限于深度学习的一个子领域,在不同模型和任务之间的可迁移性较差;3)通常仅针对深度学习流程中的一小部分进行优化,各个部分算法之间缺乏通用性;4)一般围绕目标任务本身的优化,对算法中指导模型训练的部分(元模型)关注较少。有鉴于此,本文对自动化机器学习这一领域进行了深入探索,并提出了一系列工作以解决上述问题:1.针对传统自动化机器学习算法对元模型缺乏关注的问题,本文以人类社会中的教与学概念为蓝本,提出了教学相长框架(Learning to Teach,L2T),显式引入了“教师”与“学生”的概念,并通过教师与学生的信息交流和联合优化,体现教学相长的思想。2.针对传统算法仅针对深度学习流程中的一小部分的问题,本文将教学相长框架应用于数据选择、模型结构设计及损失函数设计等多个学习步骤中,提出了多个相关工作,构建了一个通用的自动化学习框架:首先,本文提出了一个基于教学相长框架的数据选择算法L2T-Data,该算法通过简单的状态函数和动作向量实现教师和学生之间的交互,并且使用深度强化学习算法自动学习出针对特定任务的数据选择策略,在图像分类和文本分类领域取得了较好的效果;其次,本文提出了一个基于教学相长框架的模型结构学习算法L2T-Model,该算法使用基于梯度的优化算法,教师模型在训练的过程中,针对学生模型的不同训练状态和数据的特征选择不同的模型结构,取得了比手工设计的模型结构更好的效果。3.针对传统算法缺乏可迁移性的问题,本文通过对教学相长框架的精心设计保证了框架的通用性,并且通过实验验证了算法训练得到的教师模型在不同任务之间较好的迁移效果。4.针对传统算法效率较低的问题,本文提出了基于反向微分的教学相长框架优化算法L2T-DI,该算法通过将学生模型的内部信息加入状态函数,实现了教师与学生模型之间的深层次交互,并且通过基于反向微分的迭代式算法,直接用梯度优化教师模型,改进了基于教学相长框架的数据选择算法,提升了框架的收敛速度和训练效果,在多个任务上取得了较好的性能。实验结果表明,本文提出的教学相长框架在图像分类、文本分类及机器翻译等任务中均能取得优于专家设计的经典网络以及传统自动化机器学习算法的性能,具有可接受的开销,并且在不同的任务之间具有较好的可迁移性,这证明了教学相长框架的有效性。此外,本文将教学相长框架应用于真实应用场景中,针对机器翻译任务搜索出了最佳的模型结构和超参数配置,取得了优于其他神经网络机器翻译模型的性能。
其他文献
本文是对黎曼面上奇异双曲度量的研究,主要包含下面两个部分。一方面,我们用两种方法给出了双曲度量在孤立奇点附近的局部模型。即我们证明了在孤立奇点附近存在复坐标z,使得度量的表达式要么为(4α~2|z|2α-2/(1-|z|2α)~2)|dz|~2,其中 α>0,要么为 |z|-2(In|z|)-2|dz|~2。另一方面,我们提出了下述猜想:位势理论意义下的非双曲型黎曼面上的奇异双曲度量的单值化群在P
页岩作为典型的沉积岩广泛存在于自然地层中,受层理和裂隙发育的影响,各岩层力学性能差异大,页岩体中的地下工程结构易发生变形破坏,严重影响着工程结构的稳定性。页岩矿床开采采场围岩的变形规律、应力分布、损伤特征是影响矿床开采安全的主要因素。因此,借助理论分析、物理相似模拟试验和数值模拟试验等手段,研究采场变形特征、应力状态、破坏模式和支护形式,是页岩矿床安全开采的岩体力学关键问题。以某典型缓倾斜页岩矿床
电子显微成像的结果有时不那么直观,通过模拟研究可以从有限的结果中获得更多的信息。本论文就透射电子显微镜成像模拟方法进行了介绍,研究了离焦、像散下电镜的成像。另外,在多层法基础上提出了全空间力学分析,并将其应用在电子束对样品力学作用的研究中。首先,文中给出了一套模拟离焦图像并通过与实验图像定量对比优化参数的研究方案,分析了带电纳米线在大离焦量下的成像机制,为复杂情况下,共轴全息技术在荷电测量上的应用
镁合金是目前密度最轻的金属结构材料之一。其在电子产品、交通运输、航空航天等领域有着广阔的前景。然而目前镁合金的实际应用与其优异的性能所能达到的预期还有较大的差距,这主要是因为镁合金作为结构材料强度仍然较低。而Mg-Gd系合金是镁合金中强度最高的体系之一,对其成分和制备工艺优化是提高性能最有效的方法。基于以上背景,本文选择Mg-Gd系合金作为研究对象,通过添加Sm以及Zn元素,并采取不同的变形和热处
Fogging is always a significant problem for agricultural films,where fog may reduce the light transmission resulting in an adverse effect on the yield and quality of crops.Many reports have been discl
学位
聚酯玻璃钢具有密度低、热绝缘能力优异、机械性能好、成本相对较低以及易加工等特性,被广泛应用于高速列车的墙板和顶板等部位。然而,聚酯玻璃钢的基体材料不饱和聚酯树脂具有较高的可燃性,当列车内发生火灾时,其他内饰材料燃烧产生的高温热辐射会导致聚酯玻璃钢发生热解,着火后火焰会迅速蔓延至整个车厢。此外,高速列车运行环境复杂多变,由于海拔和气压等环境因素的影响,聚酯玻璃钢可能处于高氧或低氧环境。因此,深入认识
本文主要研究如何利用DHOST理论在解决反弹/浮现宇宙学中的不稳定性问题。本文在简并高阶标量张量理论(DHOST)的框架下,利用单一标量场与引力的耦合,研究了一类新的非奇异反弹宇宙学理论。在该类理论中,原本在标量-张量理论和Horndeski/Galileon理论中广泛存在的非奇异反弹宇宙学中的梯度不稳定性被DHOST理论中新算符带来的效应取代,这源自对于扰动色散关系的修正。计算结果表明,当原初扰
近年来,随着物联网(IoT)设备数量逐步增多,产生的数据量呈现爆炸式增长。设备通过IoT平台进行互联互通是实现万物互联智能网络的基础,而利用人工智能(AI)技术对物联网所产生的海量数据进行智能分析,可以提高数据处理的效率和产品服务的质量。在实际应用中,最常用的IoT与AI融合模式:物联网设备将所有感知数据都发送至云平台,基于这些海量数据进行模型训练,进而将训练得到的模型对数据进行智能分析与处理。但
通过对类皮肤柔性自供能传感器系统各个模块的核心功能器件进行多尺度结构设计使得其具有可变形、可延展的“类皮肤”特性。类皮肤柔性自供能传感器因为兼具保形接触、可延展特性以及生物兼容性等优势目前被广泛应用在健康监测、慢病管理、智能康复等领域。但是其核心功能器件设计中仍然存在一些关键科学问题与技术问题,急需使用多尺度结构设计方法进行解决。在核心部件传感器方面,针对平面蛇形网状结构的可延展能力分析方法,目前
目前我国很多(超)高层项目为了实现更优的建筑立面效果,越来越多的采用玻璃幕墙外墙形式,但玻璃幕墙及玻璃窗均易在火灾条件下破裂形成火焰向室外蔓延的通道。本文旨在研究采用喷淋系统对玻璃幕墙和外窗进行冷却防护的可行性,研究相关防护冷却行为规律,提出关键工程应用参数,最终形成经济而高效的防护冷却系统,极大降低火灾时外墙玻璃受火破裂及进一步因玻璃破裂出现开口火溢流的风险。本文首先在高12 m的三层全尺寸实验