面向深度学习应用的执行优化系统研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhiqi_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能在全球迎来了新一轮的研究热潮,在传统的机器学习算法之外,一种名为深度学习的技术被提出,其核心是模仿生物神经系统构建的神经网络,这种层层递进的模型结构由于其出色的特征提取与数据拟合能力,被广泛应用于各种人工智能产品中,如今常见的人脸检测、机器翻译、语音识别等应用都基于深度学习技术实现。深度学习应用的执行阶段包括模型训练和任务推断两个核心环节,模型训练是利用特定数据集修正神经网络参数值从而提升模型泛化能力的过程,具有数据密集和计算密集特性,无法在短时间内完成训练;任务推断是将任务数据输入训练完毕的神经网络逐层计算获得推断结果的过程,其执行效用由准确度和响应时间决定,但难以同时实现高准确度和快速响应。构建面向深度学习应用的执行优化系统面临两大关键问题,如何加速模型训练与如何提升推断效用。本文围绕这两个问题展开研究,具体内容包括:(1)基于模型结构和执行环境感知的训练优化机制,根据神经网络结构和实际运行环境自适应地确定计算集群的任务分配方案以提升分布式训练速度。该机制分为模型信息采集和并行方案决策两个阶段,前者根据本文归纳总结的公式估算神经网络每层计算单元的参数量和中间数据量,后者基于这些信息使用粒子群优化算法分析不同任务分配方案下的训练时间开销并从中选取最优方案。(2)面向异构时间和准确度需求的任务推断优化机制,根据推断任务的需求特性自适应地决策任务的执行位置、计算模型和处理顺序以提升任务推断效用。该机制分为基于加权轮询的任务迁移阶段和面向效用最大化的任务调度阶段,前者基于任务对响应时间的需求和服务器的计算能力与负载情况为任务选择合适的执行位置,后者根据任务的延迟敏感程度与准确度敏感程度为任务确定合适的计算模型和处理顺序,保证及时响应的同时尽可能提升推断结果的准确度。(3)面向深度学习应用的执行优化系统,基于上述理论研究成果设计与开发了实际系统。系统中的训练优化功能模块基于PyTorch深度学习框架实现,推断优化功能模块基于RabbitMQ消息中间件和PyTorch深度学习框架实现。综上,本文针对深度学习应用运行过程中的模型训练加速问题和推断效用优化问题进行了理论研究与系统实现。实验表明,本文所提机制能够有效地减少模型训练的时间开销,提升推断任务的成功率和准确率。
其他文献
近年来大气雾霾已引起社会公众的广泛关注,PM2.5排放控制成为亟待解决的问题。本文针对燃煤电厂脱硫后烟气中PM2.5超低排放问题展开研究,通过在湿式电除尘器前加装声波团聚器使PM2.5细颗粒物发生团聚长大,提高湿电对细颗粒物的脱除效率,烟气经过湿电之后再进入水媒式烟气-烟气热交换器(MGGH),经过烟气冷却器的冷却除水作用促进烟气中水溶性离子的脱除,减少可溶性离子进入大气后形成细颗粒物,进一步降低
随着器件工艺尺寸进入到纳米级别,制造工艺参数波动对电路性能的影响越来越严重,成为限制芯片良率的重要因素之一,使得在设计阶段需要能够准确预测参数波动影响下的电路良率。传统的蒙特卡罗方法在评估电路失效事件时需要大量采样并仿真而无法接受。为了减少仿真量,近年来提出了一种自适应重要采样(Adaptive Importance Sampling,AIS)的快速良率评估算法,但在同时评估Bit cell电路等
本文围绕实现具有低成本、小型化、高灵敏度等特性的太赫兹单脉冲接收系统展开,针对雷达系统有着对单脉冲馈源小型化、可集成的未来需求,基于硅微机械制备工艺,研究太赫兹频段高增益、小尺寸的微小透镜天线馈源技术,探索高集成度、低剖面、低损耗的和差比较器结构。本文主要的研究内容和结果如下:1.研究了基于间隙波导技术的和差比较器。首先从间隙波导理论出发,基于色散模式法计算获得电磁带隙和通带范围,接着采用间隙波导
智能音视频终端在多媒体会议系统、远程教室等系统广泛应用,而基于USB的声卡接口模块是其和计算机系统进行音频流传输的关键部件。作为便携式音频终端接口,USB声卡模块可以满足多种场景的应用需求,且相比于传统声卡拥有更好的音质表现。USB声卡以USB2.0协议为基础,实现了UAC(USB Audio Class)协议框架和HID接口。本文设计并实现了基于TMS320C6748高性能DSP的USB声卡模块
数据转换器是信号处理中连接数字信号和模拟世界的接口,是混合信号处理系统的关键模块。随着诸如光载无线电和宽带通信技术等领域高速信号处理应用的需求,对模数转换器(Analog to Digital Converter,ADC)的速率和带宽要求越来越高。研究单核超高速超宽带的ADC对于高速信号处理等相关工程领域有重要意义。本文首先介绍模数转换器的基本原理与主要衡量指标,对比分析常用高速ADC架构的优缺点
随着计算机视觉领域研究的不断深入,实例分割已经逐渐成为当下计算机视觉领域的研究热点之一。实例分割任务的目标是对图像中的所有前景像素点做所属实例的划分。在计算机视觉领域,依赖于手工提取特征的传统方法已经逐渐被深度学习所取代,基于深度学习的实例分割方法也逐渐成为实例分割任务的主流解决方案。本文以深度学习理论为基础,对现有的基于深度学习的实例分割方法做了分析,并且基于FCOS目标检测网络提出了一种新的单
MEMS是以微电子技术为基石发展起来的多学科交叉综合的新兴研究领域,其中一个重要分支及应用领域为射频微电子机械系统(RF MEMS)。RF MEMS器件得益于其低功耗、小型化、优良微波性能、高集成度等诸多优势,在诸多领域有着广泛的应用前景。在射频系统中,可调谐微波衰减器作为调节信号电平的高频器件需求度很高。它们在自动增益控制放大器、宽带矢量调制器等射频电路中广泛应用。同时,可调谐微波均衡器能够调节
随着科学技术发展的日新月异,国防现代化亦飞速发展,隐身性能已经成为先进飞行器和其他军事装备不可或缺的重要元素。频率选择表面(Frequency Selective Surface,FSS)可以有效减小天线和飞行器的雷达散射截面(Radar Cross Section,RCS);利用空间电磁波干涉相消原理和电磁对消技术,能够有效对抗电磁干扰和缩减武器平台的雷达回波。基于上述动机,本文主要在以下几个方
人类的大脑是由上千亿个不同种类的神经细胞共同组成的极度复杂的组织结构。试图理解人类大脑的工作机制是人类追寻自然规律和自我意识的终极挑战。脑科学致力于研究分析神经系统的结构与功能,揭示各种神经活动的规律,在各个水平上阐明其机制,以及预防、诊治神经和精神疾患。核磁共振成像技术因其无损伤的优势已广泛应用于脑科学研究之中,现今大量相关科研成果均是建立在核磁共振成像数据的基础之上。本文基于深度学习算法针对脑
重金属在现代工业中被广泛使用,引发的重金属污染日益严重,已危害生态环境和人类的身体健康,成为全球性的问题。能够对水环境中重金属离子高效、便捷地检测,对构建持续、有效、实时的重金属污染监测治理体系具有重要意义。随着微/纳机电技术的快速发展,谐振传感器已实现对不同物质的痕量检测。尺寸小、灵敏度高、成本低、可用于水环境中重金属离子的检测。本文以微纳米梁谐振传感器为核心,设计了多个尺寸的悬臂梁和双端固支梁