论文部分内容阅读
近年来,随着信息化时代的发展,数据量急剧膨胀,推动了以数据为驱动商业模式的发展进程。数据的价值日益凸显,由此而引发的隐私泄露问题也逐渐增多,数据的隐私问题开始得到大家的重视,所以隐私保护方法的研究成为了学术界关注的热点。事实上,差分隐私就是一种有效的隐私保护方法,它通过对数据添加噪声,随机扰动数据来保护原数据的隐私。同时它通过定量化的方法?来衡量隐私披露的风险,在实际应用过程中,可以根据需求动态调节安全性能。本文在已有关于差分隐私与决策树、随机森林分类算法研究的基础上,针对引入噪声量过大和数据计算开销过高的问题进行了改进。针对引入噪声量过大的问题,本文从两个角度进行分析:一、通过改变树结构的生成方式,以多层子树替代树节点的生成方式来优化隐私预算?;二、通过考虑多层子树替代结构的几何特征,动态调节上下层之间的隐私预算关系。针对数据计算开销过高的问题,本文在多层子树替代算法中,用M-H采样方式来降低运算规模。本文具体工作如下:一、以多层子树替代树节点,设计多层子树替代结构的评估函数。二、用M-H采样搜索方式降低多层决策子树的运算规模。三、根据多层子树替代结构的几何特点,提出MLSR-GPB算法,动态调节隐私预算?,优化噪声。四、结合多层子树替代结构,融合M-H采样搜索与MLSR-GPB算法,提出MLSR-DT算法,并在vote与mushroom数据集上进行测试,实验结果表明,生成树高度d越小,分类准确度越高;多层子树替代层次L越大,分类准确度越高;且在大数据集上分类效果要优于小数据集;以信息增益为评估函数的分类效果要优于以基尼系数为评估函数的分类效果。五、融入集成学习的思想,通过数据集与决策属性集的采样,提出MLSR-RF算法进一步提高分类准确度,降低了计算量,与DiffP-ID3算法进行对比,分类精度上有5%-10%的提升。六、为了进一步检测MLSR-RF算法的实用性,在乳腺癌数据集上进行测试,取得了较好的效果,分类准确度维持在80%-95%之间,同时给出了安全性能分析。