基于云计算的人工智能训练平台的研究与设计

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:A403537889
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近几年信息技术与大数据的高速发展,人工智能在变得越来越火热的同时,也取得了良好的发展。但是研究人员在模型训练过程中常常会遇到一些问题,如计算资源包括但不限于CPU、内存、显卡等的利用率较低,或者因为某些人为因素导致机器环境的不稳定,最后导致其它研究人员无法使用等问题时有发生。于是本文基于上述原因尝试提出基于云计算的人工智能训练平台。本文首先对目前云计算的发展现状、虚拟化技术、容器化技术、容器调度方案等关键技术和国内外人工智能训练平台的发展现状进行了研究。然后通过深入对比分析各个容器调度方案的优缺点,确定了本文将采用目前最为流行的云计算组合Docker容器化技术+容器调度方案Kubernetes为基础搭建人工智能训练平台。然后本文根据目前实际应用场景对平台的需求以及可行性进行分析,并以此为基础提出了平台的整体架构方案。最后在完成平台基础功能的基础上,对平台中涉及到的存储环境进行研究,确定存储方案Ceph分布式文件系统,并对该文件系统进行优化。本文主要的工作内容如下:1)通过对人工智能训练平台的存储环境进行分析,对比NFS文件系统和Ceph文件系统的性能优劣,本文最终选择基于Ceph文件系统作为存储媒介。并基于网络层的优化对Ceph的性能进行调优,经过实验测试优化后的传输速度为原速度的2.6倍,进而将人工智能训练模型的迭代时间大幅缩短。2)通过对人工智能训练平台的资源调度需求进行分析,本文基于Kubernetes的基础调度算法进行扩展,提出新的预选策略PodChoiceFitResources和优选策略MaxResourceUsagePriority。并以实际应用证明了新的调度算法不仅可以准确的将待调度的Pod调度到目的节点,而且还可以在资源不变的前提下有计划的增加任务数量,保证平台整体任务运行时间的不变甚至缩短。3)通过对人工智能训练平台运营管理功能的分析,本文基于目前最为成熟的两种开源方案:Heapster+InfluxDB+Grafana和Prometheus提出新的管理组合:Prometheus+Grafana,以此来对平台的资源进行监控以及必要的资源报警。4)搭建实现了一个人工智能训练平台,通过对平台实际功能的实验检测,如镜像搭建,资源申请,建立容器等操作,验证了平台能够合理、高效的对资源进行分配。
其他文献
改革开放以来,我省科技型中小企业得到迅速发展,现已成为全省主要的经济增长点和扩大内需的生力军。尽管我省科技型中小企业有了长足发展,但与南方各省相比发展相对落后,在发
企业文化伴随着企业应运而生,并随着企业管理实践的发展而发展。企业文化作为管理的方式,其鲜明之处就在于它把企业的核心价值观和企业精神渗透到经营管理的各个方面及各个层
近年来污水源热泵系统在我国的研究和应用逐年增加。污水源热泵技术是提取城市污水中赋存的低温热量的一种可再生资源利用方式,是实现城市污水资源化的有效途径。本文设计蓄
本文利用铝在高温水蒸汽中氧化实验,用扫描电镜、能谱、X-射线衍射等检测方法,利用中性盐雾实验,探讨了铝在高温水蒸汽中的氧化动力学规律,分析了铝在高温水蒸汽中的氧化行为,并对
材料在循环载荷作用下产生的塑性变形的逐渐累积现象称为棘轮效应。棘轮问题给结构的安全设计带来了严峻的挑战,它已经引起了国内外学者的广泛重视。试验发现:不仅平均应力、应
如果企业不具有产品定价权而必须负担盈亏责任的话,那显然是比较困难的;如果国有银行对资金借贷成本不具有定价权而想要成为真正的商业银行的话,无疑也十分艰巨。历史总要从
<正>近年来,随着TCL、武钢股份等上市公司实现整体上市,以及股改的顺利实施使得制约集团整体上市的制度性约束的逐步解除,我国越来越多的大型国企表现出强烈的整体上市冲动。
胶焊技术是一种把焊接和胶接工艺相结合的复合连接方法,它充分发挥了焊接和胶接工艺的优点,其接头具有承载能力高、抗剥离性能好等特点。但是,目前采用的焊接热源仅有电阻焊
目的对急性闭角型青光眼合并白内障患者运用不同手术方法,并对其临床应用效果进行分析讨论。方法本研究选取本院患有急性闭角型青光眼合并白内障患者进行随机分组治疗,观察组
A3钢是我们日常生活和教学中常用的一种塑性材料,但对于这种材料在扭转预应变和拉伸预应变后的力学性能目前研究的不多。特别是在扭转-拉伸-拉伸和拉伸-扭转-拉伸等二次硬化后