大数据处理系统中面向GPU加速DNN推理的模型共享

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:tank12134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据处理系统发展迅速,特别是基于MapReduce及其改进的编程模式有效地降低了用户编写分布式程序的难度,因而被学术和工业界广泛使用。与此同时,深度神经网络(Deep Neural Networks,DNN)技术由于其出色的特征提取能力,在视频图像数据智能分析,语音识别等领域得到了广泛的应用。一般情况下,DNN模型数据参数众多,执行一次推理的计算量较大,仅使用CPU耗费时间较长,通常需要借助图形处理单元(Graphics Processing Unit,GPU)的高并发、高速浮点计算的能力来加速推理。对于大规模数据的DNN推理,利用大数据处理系统的GPU扩展版本进行处理是一个合理的解决方案。基于大数据处理系统的任务并行模式,调度多个推理任务并行使用GPU资源能够进一步提高系统的推理性能。但这会不可避免地加载多个只读的DNN模型到显存,造成巨大的显存负担。当显存成为瓶颈时,每一个GPU上能够运行的DNN推理任务数量会受到限制,GPU的计算资源无法被充分利用,系统的推理性能也因此受到限制。针对显存开销问题,在单机环境下,本文提出了一个面向单GPU卡的模型共享方法,该方法使得大数据处理系统同一个工作进程中的线程之间能够共享GPU显存中的模型数据。单机环境下的模型共享直接在代码中指定了 GPU设备号,在大数据处理系统的任务并行模式下,该方法无法使用代码中未指定的GPU设备。对于分布式多GPU卡环境,代码中指定设备号的方式会导致GPU资源的闲置。为了支持分布式多GPU卡环境下的模型共享,本文设计了一个GPU分配器,通过动态请求与分配GPU设备号的方式使得模型共享技术可以作用于分布式集群中的每一块GPU卡。本文基于大数据处理系统Spark软件平台与GPU硬件平台,实现了一个对交通视频执行DNN推理的分布式原型系统,该原型系统集成了上述两种优化技术。本文主要贡献包括以下三个方面:·提出了一种面向单GPU卡的模型共享方法。该方法使得大数据处理系统同一个工作进程中的线程之间能够共享GPU显存中的模型数据,有效地降低DNN推理应用的显存开销。·设计了一种支持多GPU卡模型共享的GPU分配器。该分配器能够收集并维护集群中每一个节点的GPU资源信息,对节点内的进程平均分配GPU资源,使得模型共享技术可以作用于分布式集群中的每一块GPU卡。·实现了一个对交通视频执行DNN推理的分布式原型系统。该原型系统集成了面向单个GPU卡的模型共享技术和支持多个GPU卡模型共享的GPU分配器,基于大数据处理系统Spark软件平台、GPU硬件平台以及DNN推理技术对交通视频数据中的车辆进行检测与追踪。综上所述,本文重点研究了基于大数据处理系统执行DNN推理时显存开销过大的问题。本文提出了面向单GPU卡的模型共享方法,设计了一个支持多GPU卡模型共享的GPU分配器。基于上述两种优化技术,本文实现了一个对交通视频执行DNN推理的分布式原型系统。本文的工作是基于对已有相关工作调查和分析的基础上完成的。理论分析和实验结果表明了模型共享技术能够有效地降低GPU卡显存开销,提升原型系统的性能,系统吞吐量可提升136%。
其他文献
随着数据存储能力的日益强大,以及数据生成和收集技术的进步,现实应用中产生并收集了大量的数据。其中,类别分布不平衡数据集广泛存在于各个领域,传统模型应用于不平衡数据分类往往会失效,是因为它们是建立在各类别样本数量相等且误分类代价相同的前提下。如何从类别不平衡数据中挖掘信息并进行模型构建吸引了越来越多研究人员的关注,随之提出了大量针对不平衡数据分类的方法。然而,当面临数据极度不平衡、正负样本重叠严重和
在我国全面建设和实现小康社会的进程中,政治、经济、文化等方面都取得了令人可喜的成果,但同时人口老龄化程度的不断加深也给社会的良序发展带来巨大挑战。相较于国外先富后老的社会发展历程,我国现阶段正处于未富先老的状态,需要在大力发展经济的同时兼顾人文建设。城市养老问题也是城市人文建设的重要一环,目前很多城市养老服务的供给都呈现出“资源有限,服务质量不高”的特点,而养老服务承载力的研究不仅对供给侧进行深化
文档布局分析(Document Layout Analysis,DLA)作为文档理解的重要上游任务,目的是正确划分文档中的文字、图片、表格等不同元素。随着办公自动化普及,文档积累速度呈指数级增长,很多研究者都致力于探索通用DLA处理模型。随着深度学习发展,很多大容量模型被提出,但这些模型训练需要大量数据。目前通过生成方式可以产生大量训练数据,但它们忽略了对生成文档的质量评估。此外,布局较为复杂的文
目的:类风湿性关节炎(Rheumatoid arthritis,RA),是一种以关节增殖性滑膜炎为主要病理表现的慢性自身免疫性疾病。其病因及发病机制不明,但目前认为Th17细胞过度增殖是类风湿性关节炎的重要发病机制。两面针(Zanthoxylum nitidum,DC).为芸香科花椒属植物两面针的干燥根,具有活血化瘀,行气止痛,祛风通络,解毒消肿的功能,主治跌打损伤、牙痛、神经痛和风湿麻痹等。氯化
随着信息化的发展和移动互联网的普及,手机已成为大型企业线上营销的主要渠道,但是复杂的软件对于中小型商家来说成本过高。针对线下中小型门店营销方式老旧的问题,提出基于PHP的客户自动运营系统,为商家提供低成本高效率的移动互联网运营解决方案。系统采用B/S模式,架构主要包括数据存储层、数据处理层和数据展示层。主要功能包括用户画像、多方位自动营销、线上商城和数据统计功能,负责利用公众号建立商家与客户的联系
目的:本研究采用横断面前瞻性研究方法探讨ⅢB/Ⅳ期非小细胞肺癌患者不同中医辨证分型与肿瘤分子病理分型的相关性及分布规律。研究结果有可能为靶向治疗联合中医辨证治疗提供相应的科学依据。方法:本研究采用前瞻性观察性研究方法与NGS检测技术,采集50例ⅢB/Ⅳ期非小细胞肺癌患者的中医证侯信息和基因检测结果。中医证候信息以中医四诊仪及问卷采集作为客观依据辨证分型,且由至少2位中医师根据恶性肿瘤中医诊疗指南中
目的:利用镉中毒机制作用于小鼠睾丸间质细胞和小鼠睾丸组织,观察生姜粉对镉致雄性生殖系统损伤的保护机制。方法:通过体内和体外实验,利用免疫组化、HE染色、免疫印迹等检测技术,观测睾丸形态学结构改变、睾丸间质细胞中酶的表达以及凋亡相关因子的表达。对促凋亡因子Caspase-9、RBM10、CD44、抑制凋亡因子BCL-2、以及与参与细胞活性、分化黏附、迁移的因子17α羟化酶、eNOS和LHR在生姜粉作
基本面量化投资是目前越来越受到关注的一种投资方式,其核心是运用量化方法来研究股票基本面与收益率之间的关系。本文选取了两种具有代表性的机器学习模型,惩罚回归模型和支持向量回归机模型,来研究它们在基本面量化投资上的应用。除了对它们进行对比之外,本文还将对它们进行组合,来研究它们之间的组合的表现。本文选取了17个基本面因子作为自变量来对股票收益率进行预测,选取了2010年至2020年的数据来进行分析。本
目的探索钙调素依赖蛋白激酶II抑制物I(CAMK2N1)/DNA甲基化转移酶1(DNMT1)所介导的甲基化修饰及其形成的负反馈调节在前列腺癌中的作用机制方法通过Cp G岛预测软件对CAMK2N1基因启动子区和第一外显子区的碱基序列的Cp G岛分布状况进行分析,选取RWPE-1细胞系作为正常前列腺上皮细胞,选取Ln CAP、PC3、DU145细胞系作为前列腺癌细胞系,采用BSP法检测其CAMK2N1
阿尔茨海默病(Alzheimer’s disease,AD),又称为老年痴呆症,在老年人群中比较常见,是一种中枢神经系统的退行性疾病,如何防治AD一直是世界难题之一。本课题组前期研究发现土槿甲酸(PAA)和土槿乙酸(PAB)等源自金钱松根皮的土槿二萜酸化合物可缓解胰岛素抵抗及内质网应激和线粒体损伤;同时,土槿甲酸和土槿乙酸可以显著降低LPS(lipopolysaccharide)诱导的小鼠巨噬细胞