基于差分隐私的特征选择研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:vierilv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是统计模式识别、机器学习和数据挖掘等领域的一个关键问题,是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。特征选择不仅能够降低特征维数,同时还可以作为知识发现工具发现自然模型的真实变量。此外,隐私保护目前也是数据挖掘领域的研究热点。在知识发现的过程中,如何保护个人的隐私信息已经成为众多学者所关心的问题。但当前的隐私保护数据挖掘研究更多地关注隐私保护分类和回归,缺少对隐私保护特征选择的研究。本文主要基于差分隐私,研究了保护数据隐私的特征选择方法。针对基于局部学习的特征权重算法,分别利用Output Perturbation和Objective Perturbation策略增加特征选择算法的隐私保护性能,并从理论上分析算法的正确性以及通过实验验证算法的效用性。大量现实数据集的实验结果表明,在相同环境下(数据集、实验参数、分类器等),基于Objective Perturbation差分隐私特征选择算法具有更好的隐私保护效果。此外,本论文还基于Output Perturbation策略,研究了两类隐私保护的集成特征选择方法。在大量的数据集上,结合不同分类算法(最近邻和支持向量机),验证了基于差分隐私的集成特征选择算法性能。实验表明,在相同环境下(数据集、实验参数、分类器等),先加隐私保护后集成算法的隐私保护效果要优于先集成后加隐私保护算法。
其他文献
无线传感器网络已经广泛地应用于多个领域,其资源受限特性使得它无法从软件和硬件上保证自身具有较强的抗干扰能力。然而,无线传感网络通常部署在环境比较恶劣的野外环境中,这使
2013年高考已逐渐离我们远去,2014年的高考已越来越近.回顾过去展望未来,如何发挥高考题的教学功能,把握高三复习备考的方向,提高解题教学的效能是我们努力的目标.下面以2013
自1999年Napster的流行,P2P技术的研究日益升温,近几年呈现了迅猛发展的态势,并被《财富》杂志誉为“将改观因特网未来的四大新技术之一”。Peer-to-Peer(P2P)作为以文件共享为
近年来数据仓库成为数据库研究领域中最活跃的一个分支,而该领域的一个核心就是OLAP的多维查询优化问题。微软提出的多维表达式(Multi-Dimensional eXpressions,MDX)正是处理复
随着Web2.0的兴起,越来越多的服务借助网络的力量来利用集体智慧,这是一种深远的变革。对于社会化信息的研究就显得越来越重要,因此我的毕业论文准备以Web2.0下社会化内容和
研究了高山积雪层条件对草本植物生长期的影响。对5种草本植物的生物及物候特性进行了小区间的比较试验,结果表明:积雪层消融晚的小区由于无雪期短,开花数少,果实发育期短,所
机器学习领域的许多问题都可以形式化为序列学习问题。在序列学习问题中,若干数据点构成一个前后有序的整体,每个数据点需分别赋予一个类别标签。因为序列中数据点之间存在着丰
伴随着下一代互联网的提出,很多关键技术应用得越来越普遍,CDN(内容分发网络)技术提出的目的是为了解决互联网整体带宽过剩和局部带宽不足的矛盾,给用户提供更加优质的服务。
人脸识别是一个跨学科富有挑战性的前沿课题,研究的主要内容是如何使得计算机具有辨识人脸的能力。人脸识别涉及的技术很多,其中关键在于特征提取和分类方法,本文以此为重点
三维重建是根据摄像机获取的图像信息计算三维空间中的物体几何信息,由此识别和重建物体的过程。它是摄像过程的逆问题,其输入的二维图像是三维物体几何特征、光照、物体表面