无监督域自适应的隐私保护及优化方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lewy540
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督域自适应算法旨在解决无监督场景下的数据分类问题,其利用与目标域相关的源域数据集进行域自适应训练,使学习到源域知识的模型可以很好地泛化到目标域,为目标域数据进行自动标注,降低人工标注的成本,已在医疗图像辅助分析等领域得到广泛应用。无监督域自适应算法的性能随着研究者的不断推进,从单个源域扩展到多个源域,取得了令人瞩目的成绩。无监督域自适应算法应用到现实场景中主要面临以下两个挑战。1)隐私数据的安全难以保证。随着个人信息安全法的出台,互联网用户对个人隐私越来越重视,无监督域自适应算法的隐私保护备受研究者关注。现有的单源域自适应算法的隐私保护采用差分隐私等技术来保护隐私信息的安全,但无法适用于多源域自适应算法,因为多源域自适应的模型结构与单源域自适应不同且训练方式涉及多个源域,情况更为复杂。2)轻量级应用需求难以满足。随着摄像头视频分析等小型实时设备的应用场景推广,小型实时设备受计算力和内存的限制,且无监督域自适应模型参数量大,导致域自适应模型难以应用部署到小型实时设备。现有的无监督域自适应算法的模型轻量化方法,只是将传统神经网络的模型修剪技术或知识蒸馏技术直接应用到无监督域自适应中,这将导致次优的结果。如何在保证分类精度的前提下,实现域自适应模型轻量化以应用于小型实时设备成为亟待解决的问题。针对上述挑战,本文展开了以下研究:(1)针对无监督多源域自适应模型的隐私泄露风险,提出了Rényi差分隐私多源域自适应算法(RDPMDA)。RDPMDA算法将Rényi差分隐私技术与多源域自适应算法结合,对每个域判别器的梯度注入高斯噪声扰动,使得域自适应后的分类模型发布后,攻击者无法从中获取到多个源域和目标域数据的隐私信息。为了进一步提升RDPMDA算法的效用性,提出了自适应梯度裁剪边界值选取的Rényi差分隐私多源域自适应算法(ARDPMDA),在RDPMDA算法的基础上,将分类模型预训练阶段特征提取器源域样本平均梯度的2L范式数作为相应域判别器梯度噪声添加的裁剪边界值,防止注入过量的噪声,提升模型的效用性。最后,本文证明了RDPMDA和ARDPMDA算法满足差分隐私,并在两个基准的域自适应数据集进行了大量实验,验证了两个算法可以使多源域自适应模型达到隐私性和效用性的平衡。(2)针对无监督域自适应模型在小型实时设备中应用部署难题,提出了基于渐进式特征蒸馏和logits蒸馏协作的无监督域自适应算法(FLKD-UDA)。针对无监督域自适应的特性,将教师模型在不同时期、不同层的知识重要性,设计了随epoch变化的动态权重,渐进式地联合教师模型和学生模型的训练,前期侧重于教师模型的域自适应训练,后期侧重于学生模型的知识蒸馏训练;在学生模型知识蒸馏训练过程中,将logits和特征都作为知识约束学生模型训练,利用动态权重对特征蒸馏和logits蒸馏进行一个更合理化的协作,提升了学生模型在目标域的泛化能力。本文对FLKD-UDA算法在两个基准的域自适应数据集,进行了不同师生模型的大量实验,验证了该算法在目标域的分类精度优于先进KD-UDA算法和KD-STDA算法。
其他文献
大数据时代的来临,使得基于神经网络的深度学习算法广泛地应用于生物医疗、面部识别等现实生活场景中。然而,具有不同背景知识的攻击者通过直接获取原始数据敏感信息或间接提取模型参数的方式来获取利益,甚至通过生成对抗样本的方式导致模型分类错误。深度学习所面临的隐私泄露及安全风险直接阻碍了深度学习的发展。因此,深度学习的隐私保护已逐渐成为近年的研究热点。差分隐私作为一种提供严格数学证明的隐私定义,旨在保护敏感
学位
随着三维点云技术的发展和普及,三维点云图像处理技术在诸多领域中有着广泛的应用。三维点云图像处理技术成为三维扫描测量系统、三维重建、逆向工程、计算机视觉以及机器人导航等领域中的核心部分。由于三维扫描设备无法一次性获得待扫描对象的全部点云图像,因此,通常会将三维扫描设备围绕目标对象移动来进行多次扫描,再将从不同方向获得的点云配准到公共的坐标系,以获取完整的三维模型。这一过程叫做三维点云配准。三维点云配
学位
学位
<正> 有关内蒙古地区的鱼类调查过去做得很少,先后只有日人大岛正满(M.Oshima,1926)木村重(S.Kimura,1934)和森为三(T.Mori,1941)等于赤峰、热河、包头三地作过零星报道,但对呼和浩特鱼类的系统研究则尚未进行。内蒙古大学生物系于一九六二年夏季,趁暑假实习前后之便,曾作大量采集而获鱼类标本一千余尾。
期刊
目的:探讨血清维生素D水平、天冬氨酸氨基转移酶/血小板比值指数(APRI)和基于4因子的肝纤维化指数(FIB-4)对慢性乙型肝炎肝纤维化的临床诊断价值。方法:采用回顾性研究方法,选取2020年1月至2021年12月在贵州医科大学附属医院感染科就诊的行肝穿刺活检的慢性乙型病毒性肝炎患者为研究对象,共245例,根据肝穿刺病理活检结果将肝纤维化分期(S)分为无纤维化组(S0)60例,轻度纤维化组(S1)
学位
目的探究红细胞分布宽度(RDW)、中性粒细胞与淋巴细胞比值(NLR)与传统肿瘤标志物癌胚抗原(CEA)、糖类抗原19-9(CA19-9)联合检测对胃癌诊断和分期的价值。方法回顾性纳入2014年11月至2021年11月就诊于贵州医科大学附属医院的胃癌患者、癌前状态及癌前病变患者、慢性非萎缩性胃炎患者。胃癌患者根据国际抗癌联盟(UICC)2016年第八版TNM分期系统进行分期,并根据TNM分期结果进一
学位
剪纸艺术是我国最古老的民间艺术之一,寄托了当地人民对美好生活的期盼和向往。通过一幅幅精美的作品,能够反映出该地区的社会风尚、人文风情和生活习惯。徐州剪纸由于其独特的地理位置以及楚汉文化的影响,成为了该地区特有的民间艺术形式。将徐州剪纸运用到室内设计中,对徐州剪纸艺术的传承发展和室内空间文化内涵的营造具有积极的作用。本文对徐州剪纸艺术特征、徐州剪纸在室内设计中的应用方法和应用形式进行了简要分析,希望
期刊
目的:通过Meta分析及临床病例观察研究,初步探讨DAA治疗的HCV/HBV重叠感染患者出现HBV再激活的风险性、HBV再激活对DAA抗HCV的疗效的影响,为HCV/HBV重叠感染患者临床合理用药及预防抗HCV治疗后HBV再激活提供理论依据。方法:1.采用meta分析研究HCV/HBV重叠感染患者DAA治疗后HBV再激活的风险性,计算机检索外文数据库Pub Med、Web of Science、E
学位
无线网络中的移动用户在日常活动中具有较强的时间规律,造成了网络流量的高时变性特点。编码缓存由Maddah-Ali和Niesen最先提出,是一种将网络流量高峰时期的压力转移到低峰时期的网络编码技术,缓解了网络流量高峰时期的压力。基于中心化网络模型,Maddah-Ali和Niesen提出的中心化编码缓存方案(MN方案)在未编码缓存和用户请求不同文件时的通信负载达到了顺序最优。PDA(Placement
学位
拓扑图作为数据表示的典型代表,既能反映实体特征又能体现实体间的关联关系,常用于表达化学分子结构、社交网络等复杂数据,具有强大的数据描述能力。图神经网络(Graph Neural Networks,GNNs)是基于拓扑图的深度学习模型,因其能聚合节点信息并捕获实体的抽象表示,从而在蛋白质分类、知识图谱和社交网络等任务中大放异彩。诸多数据挖掘研究证明,学习样本的邻域关系以揭示实体间潜在的相互作用规则是
学位