论文部分内容阅读
近些年来,深度学习技术在图像分类、语音识别、自然语言处理等领域展现出了巨大的优势。MXNet作为一款性能较佳的深度学习框架,其在速度、节省内存、接口灵活性、可移植性、分布式效率等方面都有突出的表现,并在2016年被选为Amazon AWS官方深度学习平台。但是调查发现,目前大部分企业用户在使用MXNet处理深度学习任务时使用的还是单机版的MXNet,这对满足目前的数据量,数据吞吐量以及计算的迭代速度等要求方面都存在着很大的局限性。云计算作为一种新型的商业模式,凭借其海量计算资源与即付即用的服务模式受到了用户广泛欢迎,因此用户可以通过按需租赁云资源来处理本地深度学习任务,这样在一定程度上可避免在单机上处理深度学习任务时存在的局限性。由于在现实生活中,用户在租赁云资源时往往最关注的是:以最少的租赁费用成功处理本地的任务。但是现有关于云计算环境下任务调度研究大多数都是以减少任务在云端完成执行的时间跨度为目标,只有较少的研究同时兼顾到时间跨度和资源租赁开销且使用的任务调度算法在性能上也存在缺陷。因此在云端使用MXNet处理深度学习任务时,实现以缩短深度学习任务完成执行的时间跨度和降低云资源租赁开销为目标的高性能深度学习任务调度算法具有很重要的现实意义。针对现有研究的不足,本文主要对云计算环境下基于MXNet平台的深度学习任务调度技术开展深入研究,主要解决了用户用MXNet处理深度学习任务的云资源租赁开销最小化问题,主要工作如下:1)蚁群算法在求解组合优化问题上有着良好的表现,但是传统蚁群算法也存在部分缺陷,针对传统蚁群算法存在的缺陷,本文提出了相应的优化方案,并对改进蚁群算法(Genetic And Ant Colony Optimization Algorithm,GAACOA)在求解旅行商问题上进行性能评估,实验表明,GAACOA算法的求解结果在最优路径和算法迭代次数上要优于传统遗传算法和传统蚁群算法。2)针对用户在云端处理深度学习任务的资源租赁开销最小化目标,本文建立了云计算环境下基于GAACOA算法的深度学习任务调度模型,并对GAACOA算法求解云计算环境下基于MXNet平台的深度学习任务调度问题进行实验验证,通过和相关算法的求解结果对比表明,GAACOA算法能够优化深度学习任务完成执行的时间跨度的同时,并有效降低了云资源租赁开销。