融入隐私保护的特征选择算法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:hgtata
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘已经成为了一个热门研究领域。数据挖掘就是研究如何从大量采集到的数据中获取有用的知识和模式。然而,一些具有极高维数的数据给现有的学习算法造成了维数灾难。特征选择就是一种最常见的用于克服维数灾难的技术,它旨在通过某种评价准则从原始的特征集中选择一个最优的特征子集。然而,任何事物都有它的两面性,数据挖掘也不例外,在挖掘知识的同时造成了隐私信息的泄露。如何改善在海量数据中挖掘新知识的同时保护隐私信息是当前研究重点。本文从保护数据集隐私以及保护特征隐私两个角度考虑,对融入隐私保护的特征选择算法进行了研究。考虑数据集隐私,本文将基于基尼指数的特征选择算法与差分隐私算法相结合,提出了基于差分隐私的特征选择算法,同时为了能够将算法应用到尺寸较大的数据集上,引入了MapReduce的分布式编程框架。通过仿真实验和理论证明容易看出,该算法可以在保护数据集隐私的基础上筛选出重要的特征,同时通过对比集中式环境下的结果,该算法在时间复杂度上有很大的优势。保护特征隐私方面,本文将主成分分析与基于特征相似度的非监督特征选择算法相结合,通过对特征相似度度量准则的优化,提出基于隐私保护的非监督特征选择算法。仿真结果显示,该算法能够在确保不显著降低分类准确率的基础上,尽可能保证所选特征子集信息量之和达到最小,从而保护特征的隐私。
其他文献
本文对P2P文件共享系统中的恶意代码防治策略进行了研究。文章通过分析这些P2P恶意代码的传播方式,提出了一种应用于P2P文件共享系统的恶意代码防治策略。防治策略的核心是一
Web日志挖掘是W曲挖掘的分支之一,也是发展前景及应用价值最高的部分之一,是传统数据挖掘的延伸,与传统数据挖掘对象是结构化数据不同的是,Web日志挖掘的对象是半结构化的日志文
本文的重点在于研究如何解决OGSA-DAI的访问控制管理的瓶颈问题、在分析和研究了OGSA-DAI以及与其相关的访问控制技术的基础之上,结合基于角色的访问控制理论模型,提出了一种解
随着计算机技术、通讯技术、控制技术的发展,促使控制系统向数字式、分布式、开放可互操作和面向开放式互连网络发展。与此同时,作为位于控制系统上层的软件系统也具有更好的开
在信息时代的今天,随着通信技术和网络技术的高速发展和广泛应用,越来越多的信息在网络上传输,信息的安全与保护问题显得愈发重要,使得密码学理论与技术成为信息科学与技术中的一
由于Java作为当前一种主流的面向对象编程语言,具有其它语言不可比拟的优点。它的可移植性、安全性、开发效率高等特点能够保证应用项目得到快速的开发和部署。在嵌入式系统开
二叉树是树型数据结构中最基本也最重要的一种,在计算机学科的众多领域中有着广泛的应用。对于二叉树的枚举的研究,无论在算法理论上还是在实际应用中,都具有重要的意义。 本
结合西北工业大学航空微电子中心所承担的“十五”国防预研项目:新一代战斗机用32位微处理器设计技术研究(项目编号:41308010108),作者参加了“龙腾R2”微处理器的设计。
车辆动态路径导航是先进的出行者信息系统 ATIS (Advanced Traveler information systems)最重要的功能之一,它运用各种先进的技术向驾驶员提供实时最优路径信息,诱导驾
网格技术是近年来国际上兴起的一种重要信息技术,它的目标是实现网络虚拟环境上的高性能资源共享和协同工作,消除信息孤岛。开放网格服务体系结构(OGSA,Open Grid Services A