基于本地差分隐私的数据收集与统计研究

被引量 : 0次 | 上传用户:flyhiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信网络技术的发展,以及移动终端设备的普及,群智感知网络正在逐渐兴起。在这种网络环境中,用户可将移动终端的感知数据传输共享给相关服务机构,以便其进行大数据的分析挖掘,并利用分析出的有效信息来对产品进行改善。用户的真实数据中通常会包含敏感的个人信息(如年龄、地理位置等),直接对用户的真实数据进行收集可能会给用户带来隐私泄露的风险。因此,在对数据进行收集与分析的同时还能有效地保证用户个人敏感数据的隐私安全成为当前数据统计分析领域相关技术发展的关键。如今,在不同的应用场景下,已发展出多种不同类型的隐私保护技术,如基于数据加密的隐私保护模型(安全多方计算)或是基于限制发布的隐私保护模(k-匿名、l-多样性)等。其中,基于加密的隐私技术可以有效地保证数据的准确性和安全性,但其计算和通信开销通常较大;而基于限制发布的隐私技术在应用时常常需要对攻击者的背景知识及其攻击类型做出特殊的假设。差分隐私是近年来新提出的一种隐私保护模型,已逐渐成为当前数据统计分析领域中隐私保护定义的标准。差分隐私在假设攻击者具有最大背景知识的条件下,通过相应的数学模型来保证算法的输出几乎不受任何用户输入变化的影响,从而为用户的真实数据提供了强大隐私安全保障。差分隐私的实现机制普遍采用基于随机扰动的技术,如向原始数据添加噪声等,操作简单,计算量相对较小。本地差分隐私是差分隐私在本地式环境下的一种变换应用。在本地差分隐私模型下无需假设存在一个可信的数据收集方,数据隐私处理过程也从收集方处转移到了用户手中。因此,本地差分隐私在现实中的适用范围会更加宽广,在工业界也相对比较流行。目前,关于本地差分隐私的理论分析和技术应用已经有了不少的研究工作,但随着大数据时代的发展,数据类型及其计算任务越来越趋于多样化、复杂化,同时人们逐渐加强的隐私安全意识也使得用户个性化的隐私需求日益高涨,这些给本地差分隐私在数据统计分析领域的应用与发展带了巨大的挑战。现有的本地差分隐私相关工作多是面向简单形式的数据类型如单维类别数据、数值数据,以及其所对应的频率估计、均值计算等基础运算任务的研究,针对复杂形式的数据类型和计算任务的方案设计与理论研究相对不多;另外,关于本地差分隐私下用户个性化的隐私偏好,已有工作仅在频率估计计算上对此作出了响应,还未能在其他计算任务中实现用户个性化的隐私需求。本文基于本地差分隐私先在所有用户数据具有一致的隐私保护效果场景下,考虑数据类型和计算任务的多样化,分别针对集合数据的集合操作,时序类别数据的实时频率估计以及多维类别数据的朴素贝叶斯分类进行了研究;随后,考虑到用户个性化的隐私需求,本文结合个性化隐私模型针对数值数据的均值估计进行了方案设计。本文工作的主要研究成果及创新之处如下:(1)本地差分隐私下针对集合数据的收集与集合操作。本文首次在本地差分隐私框架下考虑了集合运算操作。基于随机响应机制和抽样策略,本文分别提出了针对用户普通集合和多重集合的本地差分隐私保护处理模型。在普通集合的估计方案中,用户利用随机响应机制对其集合数据进行隐私保护处理,收集者可通过数据扰乱前后的概率关系估算出集合交集,并结合德摩·根律对并集进行估算。在多重集合操作方案中,本文通过抽样的方法在保证隐私要求的同时降低噪声引入,提高了估计结果的准确度。相比于利用安全多方计算设计的集合运算方案,本文差分隐私方案具有较高的通信与计算效率,更强的鲁棒性,以及可抵抗收集方与任意用户的共谋攻击。(2)本地差分隐私下针对时序类别数据的收集与实时频率估计。本文面向二值类别数据提出了本地差分隐私的实时频率估计方案。在本文方案中,用户随时间动态地构建一棵满二叉树来记录自身数据在每个时刻的变化,并针对数据变化进行隐私处理和数据提交;收集者在每个时刻则可获取到有关用户当前数据变化的信息,或是前几个时刻内总的数据变化情况,然后基于先前的统计结果,恢复出当前时刻的数据频率结果。相比于目前已有的持续频率估计工作,本文方案几乎不受用户数据变化速率的影响,也支持收集者实时获取统计信息,同时可以估算出更高准确度的频率统计结果。(3)本地差分隐私下针对多维类别数据的收集与朴素贝叶斯分类。本文先在本地差分隐私下提出了针对二维类别数据的隐私保护处理模型,并在该模型下估计出二维随机变量的联合分布。然后通过本文联合分布估计方案可计算出给定类标签时特征属性取值的条件概率,进而训练出朴素贝叶斯分类模型。与已有相关方案的实验和理论分析对比表明,本文方案无需假设可信的数据收集方,同时可以保证用户所有属性数据的隐私安全,而且在同等隐私保护强度下,本文方案可恢复出最佳的分类结果,同时可兼顾方案的计算开销与通信开销。(4)个性化本地差分隐私下针对数值数据的收集与均值估计。本文基于个性化本地差分隐私的定义提出了用户自定义隐私保护参数的均值估计模型。在此模型下,本文针对数值型数据设计了三种随机扰乱机制,其中,用户可根据自己的隐私需求自定义相关的隐私参数,并生成关于真实数值无偏的随机扰乱值。因此,尽管用户采用了不同的隐私保护参数,收集者仍然可以获取到无偏的均值估计结果。本文理论分析了各方案在最坏情况下扰乱数据的方差大小,并通过实验对比了三种方案的均值估计结果。相比于本地差分隐私的均值估计方案,本文个性化的隐私保护机制可以获得更加准确的均值计算结果。
其他文献
伴随整个互联网产业的不断升级,新的智能设备以及软件不断发展,使企业积累了大量应用数据。数据挖掘中,许多数据可以抽象成图数据,使用图(网)等方法来表达现实关系,有着直接、自然等特征,图数据库能够较为高效地插入和查询关联数据,便于后续的建模工作。企业需要对这些数据进行共享或者交由第三方数据分析公司对数据进行分析,挖掘数据的潜在信息特征,方便企业更好地开发产品。然而,直接使用这些数据会造成网络图中用户不
报纸
目的:神经源性肺水肿(Neurogenic pulmonary edema,NPE)是颅脑损伤后发生的以急性肺水肿为主要表现的临床综合征。本试验旨在研究与NPE发生相关的危险因素。方法:这是一项前瞻性的研究,共有140名颅脑损伤患者纳入。在急诊时记录患者的人口统计学数据,并完善生物学标本检查、心电图以及头颅和胸部影像学检查。入ICU后记录患者的生命体征、格拉斯哥昏迷评分(Glasgow coma
<正>研究显示创伤位于院前急救疾病谱首位[1]。严重创伤患者多为复合伤,具有病情复杂、死亡风险高的特点,需及时进行处理。患者受伤后1h是抢救黄金时间,救治团队快速有效开展救治至关重要[2]。在多学科团队救治过程中,护理团队的快速有效配合以及与其他成员的高效沟通对提高严重创伤患者有效救治有重要意义。随着医疗水平的不断提高、创伤急救中心的建设及发展,传统的护理抢救模式已不能有效地促进多学科团队开展快速
目的 观察伊伐布雷定联合沙库巴曲缬沙坦治疗低血压状态射血分数降低心力衰竭(HFrEF)患者的临床效果。方法 回顾性分析2020年3月至2021年3月期间宝鸡市人民医院收治的118例低血压状态HFrEF患者的临床诊治资料。根据不同治疗方法分组,其中58例给予沙库巴曲缬沙坦治疗者纳入对照组,60例给予伊伐布雷定联合沙库巴曲缬沙坦治疗者纳入研究组。两组患者均连续治疗5个月,比较两组患者治疗前后的心率、左
ChatGPT展现出了强大的语言理解和文本生成能力,通过自我训练和深度学习实现了智能水平的超越性升级。ChatGPT所拥有的机器语言逻辑具备集成系统性知识和创新性劳动的可能基础。一个崭新的、超越的数字劳动新“主体”问题和劳动替代问题再次引发讨论。ChatGPT具有语言逻辑能力超越性、人机交互超越性、价值生成超越性的新特征,不论是作为马克思“器官”意义的机器还是作为斯蒂格勒意义上的“一般器官学”的数
目的 探讨伊伐布雷定配合美托洛尔对于慢性心力衰竭(CHF)的效果。方法 选取2019年1月至2022年1月我院CHF患者124例,按照随机数字表法分为单一组(n=62)和联合组(n=62),单一组使用美托洛尔,联合组在单一组的基础上使用伊伐布雷定。对比2组疗效、心功能[左室射血分数(LVEF)、N末端B型利钠肽前体(NT-proBNP)、心室收缩内径(LVESD)、心室舒张内径(LVEDD)]、心
<正>中国中西医结合杂志社已经开通微信公众号,可通过扫描右方二维码或者搜索微信订阅号“中国中西医结合杂志社”加关注。本杂志社将通过微信不定期发送《中国中西医结合杂志》及Chinese Journal of Integrative Medicine的热点文章信息,同时可查看两本期刊的全文信息,欢迎广大读者订阅。
期刊