论文部分内容阅读
随着信息技术的不断发展,海量数据的分析和发布等应用引发了研究热潮,回归分析的实际应用也越来越广泛,目前面临的重要挑战是如何保护回归模型参数的隐私数据,防止攻击者根据模型参数推断出敏感信息,造成敏感信息泄露。差分隐私作为一种新出现的隐私模型,不仅可以防止任意背景知识的攻击,也可以在保护数据隐私的同时避免数据失真。针对直接发布回归模型的模型参数,会导致数据集中的数据信息泄露问题,本文着重把差分隐私应用于线性回归模型和逻辑回归模型的分析。研究“基于差分隐私的回归分析算法”,包括以下三个内容:1.阐述了传统的隐私模型:k-anonymity、l-diversity。通过举例说明这两种模型特点及缺陷,引出?-差分隐私保护,并对差分隐私的噪声机制、组合特性、保护框架和评价指标进行了相关探讨。2.在研究线性回归模型的差分隐私保护时,通常都存在加噪后的线性回归模型敏感性偏大和噪声偏大,造成线性回归模型预测精度偏低问题。针对这个问题,本文提出了一种差异化的隐私预算分配算法Diff_LR,该算法首先把目标函数分解成两个子函数,再分别计算两个子函数的敏感性、分配合理的隐私预算,并采用拉普拉斯机制给两个子函数系数添加噪音,然后对子函数进行组合,得到添加噪声后的目标函数,再求取最优线性回归模型参数。理论证明Diff_LR满足?-差分隐私,通过实验分析也可得出结论:相对于其他隐私保护算法,Diff-LR不仅降低了敏感性,减少噪音添加,也使线性回归模型有更高的预测精度。3.在研究逻辑回归模型的差分隐私保护时,针对预测精度偏低问题,本文提出了一种Diff_Gene算法。该算法结合遗传算法原理,首先对若干候选参数的每一次迭代分配合理的、差异化的隐私预算,然后利用指数机制挑选top-k个较优参数,比较这k个参数被输出的概率,选择被输出概率最大的候选参数,通过不断迭代,求出最优逻辑回归模型参数。实验分析结果证明,Diff_Gene算法在模型预测精度方面比其他隐私保护算法具有更好的效果。综上所述,本文的主要贡献在于对线性回归模型和逻辑回归模型的差分隐私保护进行研究,提出新算法。新算法在保护隐私的同时,提高了回归模型的预测精度。