基于皮尔逊相关系数的差分隐私决策树方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:huziao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于皮尔逊相关系数的决策树(PCCDT)算法是决策树领域的一种贪婪型算法。其广泛应用于模式识别和信息检索领域,能够帮助医疗机构更精准地对病人进行诊断,帮助企业或个人更好地做出决策等。然而,当数据集中包含个人敏感信息(如病人的诊断信息,顾客的购物信息等),在决策树使用过程中遭到具有一定背景知识的恶意用户攻击时,个人的隐私安全就会受到威胁。如何在决策树使用过程中对敏感信息进行保护,同时又能保证决策树的效用性是一个需要解决且充满挑战的研究问题。因此,本文针对PCCDT算法提出了一种基于皮尔逊相关系数的差分隐私决策树保护算法(Diff-PCCDT),该算法主要由两个部分组成:指数机制挑选最佳分裂属性部分和对叶节点中类计数的扰动部分。实验证明,通过将隐私预算的分配与树的最大深度相结合,能够在一定程度上提升算法的运行效率和预测精度。此外,由于PCCDT在大数据场景下会遇到性能瓶颈问题,所以仍需提高其在处理大规模数据时的性能。对于Diff-PCCDT算法,当数据量过大时,其性能不仅会降低,而且精度也会因为过量的噪声影响而降低。因此针对上述问题,本文通过将差分隐私与Map Reduce框架下基于皮尔逊相关系数的并行决策树算法(MR-PCCDT)相结合来解决这些问题,本文将这种方法命名为基于皮尔逊相关系数的差分隐私并行决策树算法(Diff MRPCCDT)。通过将一个大型数据集划分成若干个不相交的小型数据集,然后分别对每个小型数据集进行处理,在降低精度损失的同时能够有效的提升算法的运行效率。本文针对基于皮尔逊相关系数的决策树算法存在的隐私问题展开研究,通过对该算法在运行过程中存在的隐私泄露问题进行详细的分析并提出了相应的解决方案,主要研究工作如下:(1)提出了一种基于皮尔逊相关系数的差分隐私决策树方法Diff-PCCDT。首先分析了基于皮尔逊相关系数的决策树存在的隐私问题,针对该算法阐述并分析了在决策树构建过程中,拥有强大背景知识的攻击者是如何根据所获得的皮尔逊相关系数和叶节点中的类计数来反推出数据集中个人的敏感信息,指出基于皮尔逊相关系数的决策树的隐私泄露问题是客观存在且严峻的。对于算法的隐私泄露问题,本文提出了一种隐私保护方案,通过将每个中间节点的条件属性与决策属性之间的皮尔逊相关系数作为质量函数,利用指数机制来挑选最佳分裂属性,然后对每个叶子节点的真实类计数添加拉普拉斯噪声,保护了决策树构建过程中的隐私。实验在6个中小型数据集(Adult、Mushroom、Sonar等)上进行,与经典的差分隐私决策树算法Diff P-ID3进行了比较,在调整了决策树最大深度和隐私预算这两种参数的情况下从算法的测试精度上对所提出的Diff-PCCDT算法进行评估。实验结果表明Diff-PCCDT算法在预测精度上更有优势。(2)提出了一种在大数据情况下基于皮尔逊相关系数的差分隐私并行决策树方法Dif f MR-PCCDT。通过将差分隐私与Map Reduce框架下基于皮尔逊相关系数的并行决策树算法MR-PCCDT相结合,解决了并行计算框架下的隐私保护问题。由于Map Reduce框架下基于皮尔逊相关系数的并行决策树算法是通过将一个大型数据集划分成若干个不相交的子集,然后分别对子集进行相应的处理后递归地构建决策树。因此对于隐私预算的分配可以利用差分隐私的并行组合性质,这样可以减少大规模数据集下的噪声累计量,进一步提升了算法在大规模数据集下的效用性。最后对提出的Diff MR-PCCDT算法,用严谨的数学公式证明了这种方法满足差分隐私。在并行计算的情况下,本文在9个中大型数据集上进行了实验,由于缺少直接方法进行对比,所以本文直接将Diff MR-PCCDT与Diff-PCCDT进行比较。实验结果表明,该算法虽然在测试精度上与Diff-PCCDT算法相差不大,但是在保证隐私的情况下显著提升了算法的运行效率。
其他文献
超声波是无损检测的重要手段,也是水下通讯的重要途径。超声波的发射与接收一般应用压电陶瓷换能器(PZT),但PZT由于自身共振特性,只能实现单点检测,检测范围受到很大限制。近年来,随着光纤传感器的迅猛发展,光纤布拉格光栅(FBG)以其抗电磁干扰、耐高温、抗腐蚀、体积小、质量轻、易于复用等优点,应用于各领域。在超声波传感方面,FBG有着更大的频率检测范围,基于这一特性,FBG超声传感器的研究具有较好的
随着人工智能技术的兴盛和互联网的普及,电子商务为企业带来了发展的新契机。目前,人工智能可应用于电子商务的各个方面,例如电子商务领域中的智能客服。但是,现有的智能客服只能根据顾客输入中的关键字简单地回应顾客,无法进行自动谈判。另一方面,当前的电子商务应用每天都会产生大量数据,这些数据在电子商务中是很有价值的。例如,我们可以使用大数据向顾客推荐商品。除此之外,大数据还可以用来帮助买卖双方之间进行谈判,
随着社会的进步,经济的不断发展,20世纪70年代起光纤传感技术得以快速发展,而双马赫-曾德尔(M-Z)干涉光纤传感系统具有结构简单、灵敏度极高、信号处理容易、方便解调、成本低等优点,在周界安防和管道泄漏检测及桥梁大坝、大型设施建设项目等领域得到了广泛的研究和应用。双M-Z光纤传感定位系统利用外界入侵扰动引起干涉信号的相位发生变化,再通过干涉解调成光强度变化,由光电探测器转化为电信号,利用互相关算法
针对平方根容积卡尔曼滤波高斯混合概率假设密度 (Square Root Cubature Kalman Filter Gaussian Mixture Probability Hypothesis Density, SRCKF-GM-PHD)算法在高杂波条件下对非线性目标跟踪能力弱的问题,该文首先融入改进灰狼算法,实时调节过程噪声Q和量测噪声R。其次,结合改进的渐消因子思想,实时调整SRCKF-G
在人工智能界,常识知识获取一直是公认的核心难题。所谓常识,是指日常生活中人与人之间存在的共识。人们的观念不断改变,常识也在不断发展。常识知识在自然语言处理、计算机视觉等领域都有着广泛的应用,但常识具有隐含性、大规模性、无领域性等特性,并且常识的理解机制尚不明确,使得常识知识获取成为限制人工智能发展的瓶颈问题。目前,根据自动化程度可以将常识获取的方法分三类:手工获取能够得到隐式的常识,但耗费大量的人
在互联网以及信息技术飞速发展的今天,物联网(Internet of Things,IoT)的研究得到了广泛的关注和重视,我国已经将物联网列入了国家的五大新兴战略性产业之一.物联网按照特定的网络协议将物体接入互联网,进行数据的交互,使得物物相连.随着人们生活水平的提高,物联网正在被逐渐被应用到家庭之中,例如家庭中的安防系统,灯光控制系统,温度检测系统等,物联网技术在家庭中的应用使得人们生活变得更加安
道路是现代交通的主要组成部分,对于管理和更新地理信息系统数据库中的道路信息非常重要。遥感图像数据已经迅速成为自动提取道路网络的主要数据源,它可以提供高精度的地面信息以及更复杂的背景细节,还可以进行大规模的道路监控,给道路提取带来了很大的改进空间,然而目前视觉判读仍然是更新道路的主要方式,这种方式成本高、需要耗费大量的时间和物力,给自动提取道路任务带来了影响。高分辨率遥感图像中的道路具有较大的类内差
人脸表情蕴含着丰富的情感信息,在人际交往沟通中起非常关键的作用,如何让计算机正确的识别理解人脸表情信息是一项具有重要意义且极具挑战性的工作。随着深度学习的发展,利用深度学习技术实现人脸表情识别成为了表情识别领域新的研究热点。人脸表情特征大多集中在人脸的局部关键区域,如眼睛、眉毛、嘴巴及其周围区域,人们可以忽略人脸的整体信息,而直接借助人脸的局部关键区域信息,来正确的识别人脸图像中的表情类别。因此,
随着教育信息化的发展,可视化教学成为教育研究者关注的热点之一。如何运用信息技术将可视化教学与学科教学融合的方式来发展学生的科学素养是亟待解决的重要课题。由于晶体结构与性质内容具有抽象性、微观性和复杂性等特点,并且该内容对学生的空间想象能力和立体几何知识要求较高,因此教师在进行讲授时很费力。2017版课标提出教师可以借助实物模型、计算机软件模拟和视频等多种直观手段,降低教学内容的抽象性,促进学生对相
视觉目标跟踪是计算机视觉领域中的重要研究方向之一,它被广泛应用在很多领域,其中主要应用在视频监控、自动驾驶和军事指导等领域当中。在当前主要以孪生网络作为发展的目标跟踪方法当中,候选目标区域中推荐的质量显得十分关键。模型更新问题也成为相应目标跟踪方法中的重要研究内容。当前跟踪方法大多数都是采用锚点固定作为推荐的一种方式,该方式所生成的候选区域数量都是非常庞大的,但是质量并非很高。并且在孪生网络中,目