面向非独立同分布数据的联邦对比学习算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:chelseainter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联邦学习从客户端丰富且高度隐私敏感的训练数据中学习共享模型,数据模型在中心与客户端间传递并迭代训练,这导致常规的联邦学习必须面临客户端数据的非独立同分布(Not Independent and Identical Distributed,Non-IID)问题和安全性问题。联邦学习存在的另一个问题是对有标签数据的依赖性,但在实际应用过程中算法需要从无标签的用户数据中尽可能地挖掘信息。为了解决以上问题,将基于聚类的对比学习算法Swav引入联邦学习框架提出基于聚类的联邦对比学习算法Fed Swav,其特点在于不依赖于数据的标签,同时更加注重局部数据之间的对比而更少地依赖于全局的分布,这将有助于解决常规联邦学习对有标签数据的依赖以及由数据不平衡引起的Non-IID问题,与此同时,基于聚类的方法能够缓解由类不平衡引起的Non-IID问题。为了缓解Fed Swav中模型所学习的数据分布在Non-IID数据分布下向拥有大数据量用户的偏移,提出共享中心向量的联邦聚类对比算法Fed CVS来利用全局信息,共享中心向量的方法能够使模型在利用全局信息的同时保证用户原始数据的安全性。但由于Fed CVS中不同聚类中心在训练时有相同的迁移速度,难以保证训练后的聚类中心能够同时覆盖用户本地和其他用户的数据分布,同时受到用户之间数据类分布相互远离的启发,提出结合中心向量共享和温度差异系数的联邦聚类对比学习算法Fed CVS-TD,使训练中的聚类中心对各用户数据分布有不同的迁移速率,尽可能地使训练后的聚类中心同时覆盖全局各个用户的数据分布。实验表明,相比普通的联邦对比学习算法,算法FedCVS-TD在Non-IID数据上的图像分类准确率可以达到5.7%的提升,且能够更好地缓解Non-IID数据对模型带来的损害,同时能够提前50个训练轮次使模型达到收敛。
其他文献
随着互联网时代信息体量的爆炸式增长,投资者难以快速从海量的金融新闻文本中获取有价值的投资信息。论文以金融新闻文本为研究对象,对事件抽取技术展开了深入地研究,构建了一个面向金融领域的新闻事件抽取系统,以便帮助投资者从海量的新闻文本中快速获取上市公司事件信息。主要的研究工作如下:提出了基于注意力机制的联合事件抽取算法。该算法使用ERNIE与BiGRU作为共享编码层,通过序列标注的方式识别出触发词之后,
学位
近年来,图神经网络由于其强大的表征提取能力在包括推荐系统在内的许多领域得到了广泛应用。目前,一些基于图神经网络的推荐算法利用评论等辅助信息在一定程度上改善了评分稀疏的问题。但是,现有算法很少关注评论中多方面的评价信息,通常从文档级别的文本中提取用户和物品的表征,难以准确捕获细粒度的特征。仅使用标点符号对评论进行分割无法准确提取不同方面的评价信息。一方面,使用标点符号粗分后的短句中仍可能存在不同方面
学位
随着操作系统国产化的不断推进,依托开源生态,涌现出了大批以Linux为内核的国产操作系统。而目前Linux上的图形用户系统基本都是以X架构为主,由于X架构上的一些缺陷,导致国产操作系统中基于X的图形显示系统存在系统占用资源高、渲染效率低下等问题。为提升国产平台的人机交互显示能力和系统整机效能,以国产嵌入式Linux操作系统和龙芯3A系列处理器为平台,设计并实现了一个基于Wayland协议的轻量级图
学位
随着资源描述框架(Resource Description Framework,RDF)成为描述知识图谱、图数据等数据资源的统一描述标准,RDF数据的规模急剧增加。在单机上查询大规模RDF数据性能受限,难以满足用户的需求。因此,分布式处理大规模RDF数据成为研究的热点。分布式处理RDF数据首先面临的挑战是如何合理均衡地将数据分发到各计算节点上。广泛使用的集中式划分所能处理的图数据规模有限,不能处理
学位
知识图谱(Knowledge Graph,KG)是以三元组为组织形式的多关系异构图,由于其有效的提供了对知识的管理、存储与挖掘的手段,被广泛的应用于推理研究中。多跳推理属于复杂推理的一种,其任务是通过给定实体与多跳关系路径推理出尾实体,在智能搜索与问答等领域有着重要的研究价值。然而现实应用中多以自然语言输入为主,难以直接建模自然语言问题中的关系语义以适应于多跳推理模型。此外,现实世界中知识图谱的规
学位
技术旨在通过自动总结文本内容帮助人们快速了解文本的核心信息,在自然语言处理中有着广泛的应用。目前互联网中的文本信息已经远远超过人工总结摘要的极限,探索高效的自动摘要算法具有重要的学术价值和现实意义。文本排序(Text Rank)算法是抽取式摘要算法的代表。但该算法在计算句子重要性得分时未考虑文本特征对句子重要性影响,采取的句子间相似度计算方法可信度较低,且所生成的摘要存在冗余,因此提出基于语义的无
学位
实时系统是指对任务完成时刻具有严格要求的操作系统。实时系统中任务所释放的每一个实例都需要以自身释放时刻为起始时刻,在相对截止期内完成执行。为了确保系统中的任务都能够满足实时性要求,在出现新任务时,系统会执行可调度性分析方法,检测新任务的可调度性,并以此确定是否为新任务提供服务。可调度性分析方法的执行效率对于实时系统的任务响应延迟和系统资源有效利用率具有直接影响。响应时间分析是一类经典的可调度性分析
学位
为了使高场超导磁共振成像系统能高质量成像,主磁体的均匀度需要达到一定的指标。但在安装磁体的过程中即使严格遵照了设计方案,仍会受到环境、材料和结构等因素的影响,导致主磁体均匀度不满足成像要求。因此需要采用匀场方法来提高磁场均匀度。对无源匀场而言,提高磁场均匀度的方法是在磁体的内腔安装磁片,通过磁片产生的矫正磁场来抵消主磁体的不均匀磁场分量,这一过程需要借助无源匀场算法来设计贴片方案。无源匀场算法通常
学位
全自动影像测量仪可以高效地解决工件测量问题,是高端制造业快速发展的基础条件。工业测量软件是全自动影像测量仪的软件部分,公差计算系统是工业测量软件的子系统,负责对软件中的元素进行各种公差计算,公差计算的结果用于判断生产的工件是否符合生产图纸标准。目前国内的测量软件主要针对平行平面上的元素进行公差计算,可以计算的公差类型少,计算误差大,通用性不强,并且这些软件没有使用脚本语言进行公差计算的功能,测量效
学位
基于深度学习的遥感影像目标检测技术已在各类任务上得到了广泛应用,而由于环境、天气等因素的变化,实际工程任务中存在着域偏移现象;同时,由于现实世界固有的小样本问题,很难去收集到足够多的有标注数据,基于丰富标签的传统深度学习模型的精度大打折扣。针对小样本遥感影像的实际应用场景,从域自适应技术出发,提出了基于自训练的半监督域自适应学习算法。根据源域、目标域数据分布特点,针对性地设计了用于旋转目标的弱-强
学位