论文部分内容阅读
现如今,在线社交网络的应用越来越广泛,为人们的交友、生活提供了很大的便利。为了使用网络提供的服务,用户不得不将自己的敏感信息暴露于网络之中。经过匿名处理后的社交网络数据被广泛地共享、转发、发布给第三方,由此引发了一系列网络数据隐私泄露的危险。因此,社交网络中的数据隐私问题越来越引起研究者的注意。尽管数据在发布之前必须经过匿名化处理,如通过使用假名、数据净化、数据扰动的方式实现匿名性。但是攻击者仍然可以根据收集到的辅助信息实现匿名数据的去匿名化,从而获得用户的身份信息。本文从攻击者的角度出发,将收集到的辅助信息作为先验知识,实现对社交网络的攻击。在过往的研究中,研究者通常仅仅使用图的结构特征来去匿名化社交网络中的用户,而忽略了用户属性信息对去匿名化算法的影响。为了弥补这一缺陷,本文通过将属性相似度计算加入到整个的节点间相似度计算中,综合考虑了图的结构特性和用户的属性信息,使用户的个人档案信息更加完整。本文提出的基于结构-属性的去匿名化算法考虑图的匿名处理对用户匹配的影响,通过设置阈值来提高算法的精确度。在将去匿名化问题转化成图的节点匹配问题后,通过减少每次待匹配节点的数目,降低了算法的计算复杂度。根据节点度的幂律分布特性,算法首先去匿名化度最大的节点,减少了算法开始时的比较次数。此外,运用了谱划分的方法将社交网络图划分成互不相交的子图,使算法可以应用于大规模的社交网络中,可以有效地在多个处理机上并行处理去匿名化算法。在之后的工作中,通过研究跨社交网络间的用户身份识别问题,进一步对用户的身份信息以及用户档案进行合并收集,实现了对用户信息更为有效的攻击。在以往的跨社交网络用户身份识别过程中,由于实际网络之间结构的差异性以及用户信息的不一致性,仅使用单一的特征匹配往往不能精确地识别同一用户。针对这一问题,给出了基于网络结构和属性信息的算法。该算法以先验种子作为基础构造二部图,进而获得跨社交网络用户之间的映射。此外,从收集到的数据中可以看出,几乎每个社交网络中都含有用户名字段。所以,用户的用户名匹配可以有效地提高用户匹配的精确度。同时,本文也给出了跨社交网络用户识别算法的设计与分析,通过减少节点间的比较次数来提高用户身份识别的效用。