深度神经网络的二阶优化及其应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chy006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络作为深度学习中的重要技术,在计算机视觉、自然语言处理、推荐系统等领域都取得了巨大的成功。近些年来,随着数据规模不断扩大、计算机硬件性能逐步提升,深度神经网络的规模也随之变大。对海量数据的学习过程离不开强大的算力和高效的优化算法支撑。因此,如何对模型进行快速且高效的优化成为了亟待解决的问题。一阶优化算法凭借简单的链式计算规则和较低的计算成本,成为目前主流的优化算法。然而,这类算法往往需要较为繁重的迭代轮数和较为精细的参数调整,在海量数据处理中,很难满足高性能的需求。近年来,随着算力的逐步提升,对算力需求较大的二阶优化算法展现出较强的研究价值。相比于一阶优化算法,其运用了参数互相关的预调节器来为模型提供更近准的参数更新方向,只需要少量迭代轮次就能快速收敛。然而,二阶优化算法由于对算力、存储空间等有较高的要求并没有被广泛应用。为了提高二阶优化算法的实用性和可行性,本文提出了三种改进方法,主要工作内容如下:(1)针对克罗内克积近似曲率(Kronecker-Factored Approximate Curvature,KFAC)二阶优化算法中,单层中大尺寸矩阵求逆运算量依旧过大的问题,进一步提出更精细的层分组近似策略。该算法根据通道维对网络的特征映射进行分组,假设各组间相互独立,将较大的因子矩阵分解成几组较小的矩阵,从而降低最耗时的矩阵求逆运算的时间成本。在多组实验表明该算法可以获得与KFAC相似的高性能精度,并且能缩短优化时间、减少空间成本。(2)针对GKFAC算法性能容易受到矩阵切分后的尺寸大小的影响问题,提出一种基于KFAC的降维优化算法。该方法利用克罗内克因子矩阵的低秩性和谢尔曼-莫里斯-伍德佰里(Sherman–Morrison–Woodbury,SMW)公式,对克罗内克因子矩阵进行更为细致的矩阵降维,针对不同类型的神经网络层,如:卷积层、全连接层、编码层等,提出不同的降维策略,更细致地近似费雪矩阵。该算法在没有损失较多的曲率信息的情况下,将二阶优化算法的计算成本大幅度降低至与一阶优化算法相近的水平。实验结果表明算法在多个真实数据集对比其余多种优化算法,计算成本都有明显的降低。(3)针对二阶优化算法收敛后最终的模型性能稍弱于精细调参的一阶优化算法的问题,提出一种一阶优化和二阶优化的联合优化算法。该方法使用球面方程,通过改变两者的权重,进行动态联合。在优化前中期,以收敛速度更快的二阶优化算法为主,训练后期过渡到以收敛性能更突出的一阶优化算法。在多个实验中,这种联合方法体现出兼具二阶优化的速度与一阶优化收敛性的良好效果。此外在该算法的基础上,结合上一章的低秩化加速技术,进一步提出一种轻量级算法,将矩阵降维至实数从而无需进行矩阵求逆运算,大幅度减少计算成本,对算力不足的设备表现出极强的兼容性。
其他文献
不同环境下的复合散射分析是目前研究的热点问题。起伏地势环境是一种常见的陆地环境,它是由多种随机粗糙面组成的模型,会产生比较复杂的地面散射杂波,这对军用雷达探测、电磁目标隐身和民用卫星遥感等领域提出了挑战。本文使用sigmoid边界过渡函数建立了一套起伏地势的理想导体简化模型,仿真分析其散射特性,并以起伏地势为背景,分析常见目标的复合电磁散射特征,为实际应用提供一定的理论基础,为工程应用提供仿真实例
学位
功率放大器作为无线通信系统中发射机的核心部件,其性能的优劣会直接影响通信系统传输信号的质量。近年来,随着无线通信技术的飞速发展,无线通信距离增大,信号带宽变宽,调制方式也愈加复杂,这对发射机中功率放大器的输出功率,工作带宽以及功率回退时的效率提出了更高的要求。本文依托“***卫星射频收发系统的研究与设计”项目需求,针对L波段功率放大器的设计展开了深入的研究。研究内容涉及单级功率放大器、功率合成放大
学位
目标跟踪是计算机视觉领域中一个重要的研究课题,近年来,随着我国城镇化建设的推进以及人民经济水平的不断提高,私家车的保有量与日俱增,为我国的交通系统带来了巨大的压力。因此,智能交通系统的研究成为了当今一大热点。车辆跟踪算法作为智能交通系统的重要组成部分,为系统获取行驶车辆信息提供了可靠的保障。由于城市道路复杂,车辆密集,树木天桥等遮挡物繁多,在城市场景中实现准确的车辆跟踪成为一个巨大的挑战。本文主要
学位
超材料由于其超常电磁特性为操控电磁波提供了新的应用途径,随着吸波器件的不断研究,利用超材料来构建太赫兹吸波体逐渐成为研究热点,目前利用超材料已经设计出了单频带、多频带、超宽带等各种类型的电磁吸波体,随着微纳加工技术的发展,一些太赫兹吸波体也随之被设计出来,但这类吸波体只是无源器件且频率不可调,无法满足通信系统日益增长的应用需求,而且当下设计出来的太赫兹吸波体大部分都是单频带吸收效率高或者是多频带吸
学位
随着遥感卫星技术的快速发展,海量的遥感时序图像不断涌现。由于在土地覆盖图更新和自然灾害风险评估等方面发挥着日益重要的作用,多时遥感图像分类问题引发了学者们的广泛关注。多时遥感图像分类旨在利用现有的有标签的源域图像信息,对无标签的目标域图像进行分类。传统的分类算法中,大多数需要人工标记数据,效率低下,且其所依据的领域自适应方法中还需要满足源域图像和目标域图像分布具有相关性的假设。为了解决上述问题,近
学位
随着遥感技术的发展,获取的高分辨率遥感图像包含愈加丰富的地物信息。如何对遥感图像进行解译获取有价值的信息是急需解决的问题。语义分割能判定图像中每个像素的类别属性,是地物观测分类常用的解译方法,并在农业生产、城市规划、灾害监测等领域发挥着关键作用。目前,基于卷积神经网络的遥感图像语义分割方法快速发展,与依赖手工设计特征的传统分割方法相比,图像中不同对象的分割效果得到显著改善,但由于网络在提取特征时丢
学位
电动车作为新能源车的代表,随着新能源技术的日趋成熟而逐步发展。电力是电动车的动力来源,作为一种清洁能源,与石油相比它不仅价格更低廉而且对环境无污染。电动汽车产业发展过程中,为了提高车辆的性能,车内的电子设备或仪器的丰富度会逐渐升高,这种变化会使车内的电磁干扰问题恶化,超标的电磁干扰甚至会影响乘车人健康。因此研究电动汽车内部各电气模块产生的电磁干扰问题就成为汽车电子领域关键技术之一。针对电动汽车内部
学位
随着计算机技术与信息检索技术的快速发展,互联网已成为人们获取医疗健康知识的主要途径之一,这些知识通常以非结构化或半结构化的形式存在,并且规模庞大、信息良莠不齐。利用传统搜索引擎难以有效获取所需的医学知识,从而制约了医学信息化的发展。因此,如何从海量数据中准确并自动化地提取出用户所需的医学知识成为了医疗信息化领域的研究热点。问答系统是信息检索系统的一种高级形式,它能减少用户在信息检索中的时间消耗,且
学位
随着互联网技术的飞速发展,新闻文章、研究出版物、博客、论坛和社交媒体等媒介产生了大量的文本数据,这些非结构化的文本数据通常隐藏着许多重要信息,抽取相关有用的信息,并实现数据的结构化表示,对知识图谱、搜索引擎和问答系统等自然语言处理(Natural Language Processing,NLP)应用具有重要的价值,实体关系抽取(Entity Relation Extraction,ERE)作为信息
学位
在测量磁场的各种传感技术中,磁通门传感器具有高线性度、高灵敏度和低噪声等优点,在导航系统、电子罗盘和高直流电流测量上有着广泛的应用。顺应磁通门传感器的发展趋势,基于磁通门传感器的理论知识、斩波稳定技术,研究了一款高集成、高线性度、低噪声的信号调节器芯片。芯片直接连接到磁通门传感器,为传感器操作提供磁场探头激励、信号调节和补偿线圈驱动器放大等功能。本文的研究内容与创新点如下:1.在磁通门传感器理论研
学位