论文部分内容阅读
近年来,随着物联网(IoT)设备数量逐步增多,产生的数据量呈现爆炸式增长。设备通过IoT平台进行互联互通是实现万物互联智能网络的基础,而利用人工智能(AI)技术对物联网所产生的海量数据进行智能分析,可以提高数据处理的效率和产品服务的质量。在实际应用中,最常用的IoT与AI融合模式:物联网设备将所有感知数据都发送至云平台,基于这些海量数据进行模型训练,进而将训练得到的模型对数据进行智能分析与处理。但随着感知数据量的指数级增长,将所有数据聚集于云平台进行模型训练与智能分析,不仅需要极高的通信带宽,同时增加了网络传输时延,因此不适合低时延、低带宽等需求的应用。为此,边缘计算(Edge Computing)技术可以应用到物联网与人工智能的融合中,以降低系统的带宽消耗,提高网络传输的实时性,以及加强对敏感数据的隐私保护。然而边缘网络通常具有资源有限、系统异构、环境动态且数据不均等特性,这严重影响了边缘侧分布式模型训练(或称联邦学习,Federated Learning)的性能,包括测试精度、完成时间等。为了解决上述挑战,本文提出了面向高精度需求的边缘网络模型训练研究,主要研究内容与贡献如下:1.针对网络中交换机流表和服务器处理资源受限的问题,本文提出了一种基于通配符的增量式边缘网络服务器和服务功能部署方法,为分布式模型训练提供基础设施保障。现有的工作侧重于减少服务器部署成本,而忽略了交换机资源约束(如TCAM表大小受限)。因此,当有较多任务或数据流请求在网络中路由时,交换机需要部署大量的流表项(或转发规则),进而导致过高的控制器开销。为了解决该挑战,我们提出了一种增量式服务器部署(INSD)策略来构建可扩展的边缘网络,并证明了 INSD问题是NP难的,且不存在常数近似比的多项式时间算法。此外,我们提出基于贪心背包的近似算法来对问题进行求解,并分析其近似比为2·H(q·p)①,其中q是VNF的类别数,p是通过交换机的最大网络流数。我们基于Pica8实体交换机和OpenvSwitch(OVS)虚拟交换机对所提方案进行了验证,并通过大规模仿真对方案的性能进行了评估。与现有解决方案相比,我们提出的方案虽然增加了约5%的服务器部署成本,但可以减少88%左右的转发规则数目和大约82%的控制器开销。2.针对分布式模型训练中由于同步屏障导致的训练时间过长问题,本文提出了一种自适应异步联邦学习(AAFL)机制。具体地,在每一轮训练中,参数服务器会根据客户端发送的本地更新到达顺序,对α·n个本地模型更新进行全局聚合,其中0<α<1,n为网络中所有的客户端数。然后,我们从理论上分析了 AAFL机制的全局模型收敛速度,得到了一个与α有关的收敛上界。为了很好地适应动态网络环境决策,我们提出使用深度强化学习(Deep Reinforcement Learning,DRL)的方法来决策α值,通过将训练状态和网络资源等作为DRL系统的输入,能够得到每一轮最优的值。大量实验结果证明了我们所提方法的高效性。例如,可以在获得与同步方案相似测试精度的同时减少约69%的训练时间,或者在相同资源开销的约束下,训练模型的测试精度提高约18%。3.针对边缘网络中数据分布不均导致模型测试精度下降的问题,本文提出了一种结合模型迁移的联邦学习机制。由于网络客户端处于不同地理位置,边缘设备收集这些客户端发来的数据也差异明显。因此,每个边缘设备上的数据呈非独立同分布(Non-IID),从而影响全局模型训练的收敛速率和测试精度。为解决该问题,本文提出使用模型迁移的方法,使得本地模型能在逻辑上的更大数据集上进行训练。我们首先分析了该方法的收敛性,证明了其能够减少分布式训练中的全局模型和集中式训练所得模型之间的参数差异。接着,我们形式化定义了结合模型迁移的联邦学习(FLMM)问题,并提出一种基于深度强化学习的模型智能迁移策略。大量实验结果表明,本文的方法与现有解决方案相比,在资源约束下提高约13%的测试精度,并在取得相似精度时减少通信带宽消耗约42%。4.针对边缘参数服务器(Parameter Server,PS)与客户端频繁通信导致PS端网络拥塞的问题,本文提出了一种基于概率通信的去中心化联邦学习(DFL)机制。同时,该方法可以有效解决由于系统异构和数据不均(如质量和数量)造成的模型测试精度下降问题。具体地,为避免服务器端拥塞,我们利用点对点(Peer-to-Peer,P2P)的通信方式来减缓服务器端的通信压力。基于网络节点的资源和数据分布,我们提出一个高效的近似算法给节点间的每条链路分配了一个合适的通信概率。通过大量实验表明,与现有解决方案相比,本方案可以将模型训练的完成时间减少约55%,并在网络带宽约束下将测试精度提高11%左右。通过以上方法,本文可以有效解决由于边缘网络资源受限、系统异构和数据不均等特性导致的模型测试精度下降问题。同时,我们也开发设计了边缘计算分布式模型训练系统,对上述方法进行了验证。