一种基于差分隐私的随机森林分类算法研究

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:SHAWSHAW11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息化时代的发展,数据量急剧膨胀,推动了以数据为驱动商业模式的发展进程。数据的价值日益凸显,由此而引发的隐私泄露问题也逐渐增多,数据的隐私问题开始得到大家的重视,所以隐私保护方法的研究成为了学术界关注的热点。事实上,差分隐私就是一种有效的隐私保护方法,它通过对数据添加噪声,随机扰动数据来保护原数据的隐私。同时它通过定量化的方法?来衡量隐私披露的风险,在实际应用过程中,可以根据需求动态调节安全性能。本文在已有关于差分隐私与决策树、随机森林分类算法研究的基础上,针对引入噪声量过大和数据计算开销过高的问题进行了改进。针对引入噪声量过大的问题,本文从两个角度进行分析:一、通过改变树结构的生成方式,以多层子树替代树节点的生成方式来优化隐私预算?;二、通过考虑多层子树替代结构的几何特征,动态调节上下层之间的隐私预算关系。针对数据计算开销过高的问题,本文在多层子树替代算法中,用M-H采样方式来降低运算规模。本文具体工作如下:一、以多层子树替代树节点,设计多层子树替代结构的评估函数。二、用M-H采样搜索方式降低多层决策子树的运算规模。三、根据多层子树替代结构的几何特点,提出MLSR-GPB算法,动态调节隐私预算?,优化噪声。四、结合多层子树替代结构,融合M-H采样搜索与MLSR-GPB算法,提出MLSR-DT算法,并在vote与mushroom数据集上进行测试,实验结果表明,生成树高度d越小,分类准确度越高;多层子树替代层次L越大,分类准确度越高;且在大数据集上分类效果要优于小数据集;以信息增益为评估函数的分类效果要优于以基尼系数为评估函数的分类效果。五、融入集成学习的思想,通过数据集与决策属性集的采样,提出MLSR-RF算法进一步提高分类准确度,降低了计算量,与DiffP-ID3算法进行对比,分类精度上有5%-10%的提升。六、为了进一步检测MLSR-RF算法的实用性,在乳腺癌数据集上进行测试,取得了较好的效果,分类准确度维持在80%-95%之间,同时给出了安全性能分析。
其他文献
米曲霉(Aspergillus oyzae)能够分泌高活力的酶,因而被长时间应用在传统发酵食品的生产中。米曲霉中性蛋白酶(neutral protease)的分解作用将原料中的蛋白质发酵水解成多种氨
从色散关系出发,推导了描述超短光脉冲不同偏振分量在双折射光纤中传输特性的耦合高阶非线性薛定谔方程(CHNLS),在一定参量下得到了亮亮、暗暗、亮暗孤波解析解,包括一种非常
土地整治成为提高耕地质量,增加有效耕地面积,集约节约土地的重要途径。当前和今后一个时期,土地整治已经上升为国家战略,成为保发展、保红线、促转变、惠民生的重要抓手和平
由于不锈钢钢筋在强度、延性、耐腐蚀性和维护成本等方面表现出的优越性,在处于高腐蚀地区的重大工程结构用不锈钢钢筋替代钢筋混凝土结构中的普通钢筋已是发展趋势。在跨海