基于联邦学习的点击率预估算法研究与应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:changjian200910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为搜索引擎、推荐系统、互联网广告的核心技术之一,点击率预估一直是学术界和产业界的热门研究对象。传统的点击率预估模型需要将数据搜集于一处进行训练,但从隐私保护的角度而言,不搜集用户的数据才是一种更好的策略。联邦学习可实现在参与方数据不离开其本地的前提下,利用其数据进行机器学习。将联邦学习应用于点击率预估领域将有助于搜索引擎、推荐系统、互联网广告行业的隐私保护。本文的研究目标是联邦学习在点击率预估领域的应用,当前主要存在的问题有:缺乏二分类场景下的非独立同分布数据集生成方法、模型的效率和效果不够好、缺乏在点击率预估领域的应用。基于这些问题本文开展了如下工作:(1)生成了非独立同分布数据集。在二分类问题下提出了以数据标签比为独立同分布程度的衡量指标,并以该指标为依据将数据集划分成整体非独立同分布程度可控的客户端子集。针对客户端子集生成过程中的NP难问题设计了启发式算法进行求解,本方法能在合理的时间内生成客户端子集。(2)提出了改进的联邦平均(Refined Federated Averaging,RFedAvg)算法。首先,针对网络通信受限导致的部分客户端很少参与训练带来的不公平和模型效果降低的问题,本文模拟了极端受限和普通受限两种情况,并从客户端选择环节提出了一般修正和严格修正的策略,实验结果表明了修正策略的有效性。然后,在模型聚合环节,本文引入了四种分布间距离度量方法对模型进行联邦加权聚合,在训练过程中将客户端与总体数据的分布间距离转换为模型权重,实验结果表明四种方法均能提升模型效果。最后,本文融合了上述两点改进,提出了RFedAvg算法,并将其与当前的热门模型进行对比,实验最终表明提出的模型收敛更快、效果更好。(3)实现了一个联邦推荐原型系统。基于RFedAvg算法实现了一个基本的联邦推荐原型系统。实现过程中解决了两个关键技术问题:Python和Java间的相互调用、中心服务器对客户端的远程调用。系统采用RFedAvg算法作为召回模块,并根据音乐热度对召回结果进行排序,在实现推荐功能的同时,有效保护了用户数据。
其他文献
土的粒径级配是影响其冻胀敏感性的一个主要因素。本文结合我国寒区高速铁路路基填料的级配特点和既有冻胀特性的研究成果,首先通过粗颗粒土的常规冻胀试验、大型冻胀模型试验的两种不同试验方法的结果对比,分析大粒径粗砾对粗颗粒土冻胀特性的影响。其次,运用分形学理论建立多孔介质孔隙分形模型,分析了粗颗粒土分形维数的计算方法。第三,结合不同级配条件下粗颗粒土分形维数的计算方法,构建出能综合描述粗颗粒土微观结构复杂
激光雷达传感器可以获取准确的3D空间信息,被广泛地应用到自动驾驶和机器人等领域。然而,激光雷达获得的点云数据存在固有的缺陷:在空间上,点云非常的稀疏;时间上,点云帧率较低。论文拟利用深度学习的方案提升激光雷达点云时空稠密度,工作总结如下:(1)提出了一个用于伪雷达点云插值的深度学习网络。激光雷达可以在低帧率(约10 Hz)下提供可靠的3D空间信息,但是,在多传感器系统中,较高帧率的相机不得不降低帧
柔性输电技术的使用不仅能保证电网输电的经济性,而且极大地降低了大面积停电的概率,而柔性输电技术的核心环节就是利用储能设备调控电网中的有功、无功功率。超导储能设备(SMES,Superconducting Magnet Energy Storage)与适当的控制策略相结合可用于平抑分布式微源变化带来的系统波动,所以提高超导储能系统的控制性能与电磁性能具有重要意义。本文首先对超导储能系统的三种非受控工
随着石油能源短缺和空气污染问题日益严重,大力发展新能源汽车产业迫在眉睫。混合动力汽车兼具了电动汽车和传统汽车的优点,成为近几年来国内外的研究热点。本文以混联式混合动力乘用车为研究对象,重点研究混合动力乘用车模式切换过程中转矩协调控制算法。通过对模式切换过程进行动力学分析,提出了相应的模式切换控制策略,并研究不同控制策略对模式切换性能的影响。本文的研究工作对开发混合动力乘用车模式切换控制策略具有一定
在大型旋转机械的传动系统中,其旋转部件的性能及安全性起着至关重要的作用,因此对旋转部件的参数,如压力、应变、扭矩、振动等状态进行在线测试,可以检测出系统运行的环境对旋转构件的强度、性能、寿命、安全等方面的影响。在风力发电机中,对其旋转部件齿轮箱的应变参数进行测试,可以有效的评估其运行状态,从而延长其使用寿命。本文在对旋转件测试信号传输技术深入分析之后,针对现有接触式测试信号传输技术的不足,并结合旋
空间网络具有广阔的覆盖面积和移动接入能力,是地面网络的有效补充,并在国家军事、民用和应急通信等方面发挥着重要作用。随着地面互联网和空间网络的业务逐渐融合,亟需对两者在协议体系层面进行融合,构建覆盖全球的天地一体化网络。但是卫星网络与地面网络在拓扑稳定性和计算资源等方面有较大差异,地面网络的路由协议不适用,需要考虑新型的网络技术。本文基于标识网络体系的身份位置信息分离映射和控制与转发解耦的思想,对基
随着人们收入水平的提升以及消费观的改变,对蔬菜的品质以及多样性、安全性的需求也越来越高。北京作为一个拥有2000多万常驻人口的一线大城市,蔬菜的需求量在不断提升。然而北京蔬菜自给率低,主要依靠外埠供应。2020年新冠疫情爆发,不仅威胁到了人民的生命安全,由于疫情传播的严防严控,也对北京市蔬菜供应产生了影响。基于此背景,对于疫情下北京蔬菜供应风险进行评估和控制的研究具有现实意义。本文的主要研究内容如
目前我国的城市群大多为单核心城市群,其发展时间短,城市群内经济和交通协调性较弱,核心城市的辐射强度难以满足需求。因此,加强城市群经济空间格局和交通空间结构的协调性,对于推进我国城市群建设具有重要意义。本文以环长株潭城市群为研究对象,采用空间结构理论和复杂网络理论,研究了环长株潭城市群经济与铁路交通的协调发展问题,主要内容和创新如下:首先,基于修正后的引力模型和城市经济重要度,对环长株潭城市群的空间
现有互联网缺乏时延保障能力,其技术已难以满足工业互联网、音视频等时延敏感应用的实时性与确定性要求。因此,IEEE时间敏感网络工作组基于二层以太网提出多种流量整形调度机制。其中,异步流量整形(Asynchronous Traffic Shaping,ATS)调度相比其它整形调度方案具有更高的带宽利用率且易于部署。然而ATS调度机制仅能部署在静态网络中,无法支持流量的动态加入和配置的灵活下发。因此,本
随着人工智能的高速发展,越来越多的领域关注于此并实现落地产业,然而人工智能的发展与模型精准性依赖于大量的数据。实际生活中,除了少数的公司能满足数据量需求外,绝大多数公司数据量少而且数据质量低,无法支撑构建精准的模型。而且国内外制定相关法律法规限制数据的流动,以加强对数据隐私的保护。为了解决“数据孤岛”的情况,联邦学习应运而生。当前已经有许多横向联邦学习的商业落地应用案例,间接扩大模型训练的数据量。