论文部分内容阅读
近年来,数据挖掘已经成为了一个热门研究领域。数据挖掘就是研究如何从大量采集到的数据中获取有用的知识和模式。然而,一些具有极高维数的数据给现有的学习算法造成了维数灾难。特征选择就是一种最常见的用于克服维数灾难的技术,它旨在通过某种评价准则从原始的特征集中选择一个最优的特征子集。然而,任何事物都有它的两面性,数据挖掘也不例外,在挖掘知识的同时造成了隐私信息的泄露。如何改善在海量数据中挖掘新知识的同时保护隐私信息是当前研究重点。本文从保护数据集隐私以及保护特征隐私两个角度考虑,对融入隐私保护的特征选择算法进行了研究。考虑数据集隐私,本文将基于基尼指数的特征选择算法与差分隐私算法相结合,提出了基于差分隐私的特征选择算法,同时为了能够将算法应用到尺寸较大的数据集上,引入了MapReduce的分布式编程框架。通过仿真实验和理论证明容易看出,该算法可以在保护数据集隐私的基础上筛选出重要的特征,同时通过对比集中式环境下的结果,该算法在时间复杂度上有很大的优势。保护特征隐私方面,本文将主成分分析与基于特征相似度的非监督特征选择算法相结合,通过对特征相似度度量准则的优化,提出基于隐私保护的非监督特征选择算法。仿真结果显示,该算法能够在确保不显著降低分类准确率的基础上,尽可能保证所选特征子集信息量之和达到最小,从而保护特征的隐私。