论文部分内容阅读
随着互联网技术的逐渐普及,人们的社交方式也从传统模式逐步发展到线上平台交流,夜以继日的新用户增加使得各类线上社交平台产生出越来越多的社会网络数据。社会网络数据除了能够带来巨大的商业利益外,对其特定结构以及各种存在模式的数据分析也普遍被应用于舆情分析、群体活动等各个方面。然而,新的技术手段为我们的日常生活带来极大便利的同时也暴露出这种便捷所存在的问题。社会网络数据往往包含有大量的个人敏感信息,发布这些网络数据更会对个人隐私带来严重的威胁。围绕社会网络数据所做的隐私保护问题已经成为隐私保护领域的一大研究热点。首先,基于局部扰动以及k-匿名的社会网络数据发布隐私保护方法,只能抵御特定的攻击类型,对于数据攻击者的背景知识需要严格的假设。这种隐私保护模型只针对某一特定类型的攻击者生效,隐私保护的强度不足。其次,目前已有的基于差分隐私的社会网络数据发布方法,大多是结合生成图模型抽样生成的方式重构原始网络,并在重构过程中添加噪声,从而实现差分隐私数据发布。这种数据发布隐私保护方法,对于社会网络的结构信息是具有破坏性的。然而,在社会网络分析中社会网络结构信息是十分有价值的,例如普遍存在于社会网络中的社区结构等,对进一步挖掘出子群用户的行为、属性信息等起到重要的作用。因此,在社会网络隐私保护数据发布方法能够抵御各种类型攻击的同时,保护社会网络的拓扑结构的研究是十分必要的。本文针对带有结构信息的社会网络问题,提出采用基于局部差分隐私的噪声扰动策略设计隐私保护方法实现数据发布,具体内容如下:(1)分析了现有全局化差分隐私模型对社会网络结构信息破坏性较大的问题,提出两方面原因:一方面,全局化的差分隐私保护方法对攻击者的背景知识是不符合现实意义的;另一方面,现有方法中网络用户个体间的连接关系仅以布尔变量简单表示,在注入差分隐私噪声时,会对单个边添加过多的噪声,从而影响图的流通性。(2)针对破坏社会网络数据结构信息的两方面原因,提出局部差分隐私的社会网络数据发布隐私保护方法(Local Differentially Privacy for Social Network publishing based on Uncertain Graph)。从两方面解决了现有方法对社会网络的结构信息破坏较大的问题:一方面,设定了更具有现实意义的社会网络数据发布隐私保护场景;另一方面,结合生成图模型,对带有社区结构的社会网络局部边概率重构并注入拉普拉斯噪声。(3)针对提出的局部差分隐私的社会网络数据发布隐私保护方法(LDP-USN),以严密的数学公式,证明了该方法是满足局部差分隐私的。并在三个真实数据集上具体设计、实现了该算法。构建了该方法的系统框架,同时对各个功能子模块以及各个模块的算法流程进行了详细的描述。最后分析了三个主要算法的时间复杂度。(4)通过三个真实的社会网络数据集(WebKB、Cora、Citation)的仿真实验,结合常用的社会网络结构属性检测标准,本文选取在不通隐私预算下的聚集系数(Clustering coefficient)、结构熵(Structure entropy)以及边数三个性能指标来验证本方法的结构保护程度。结果显示,在三个数据集上平均聚集系数与原始图相比较为接近,并随着隐私预算的逐渐变大,聚集系数与原始图数据越接近;结构熵在隐私预算?≥0.2时,与原始图较为接近;边数在较为稀疏的数据集WebKB中,与原始图相比较少,但在另两个数据集中,随着隐私预算的逐渐增大,边数与原始图逐渐接近。本文通过实验与原始社会网络进行对比,分析了本方法在网络结构保护方面的性能,验证了所提出的方法的有效性。在一定程度上保护了社会网络数据的结构信息同时,能为发布的社会网络数据提供有效的隐私保护。