论文部分内容阅读
社会网络是现实中许多真实复杂网络的抽象,社会网络中蕴含着丰富的数据信息。现实世界中,社会网络随处可见,例如Blog、FaceBook和Twitter等在线社交网站。社会网络数据发布可以为不同的研究工作者提供一些可靠的、实时的而且有高价值的数据。对社会网络数据的分析可用于知识决策、科学研究和数据共享。然而这些数据往往涉及用户隐私信息,发布和共享社会网络数据会导致隐私泄露。为了保证数据共享,给网络用户提供更好的服务,数据拥有者发布网络用户的数据。数据分析者分析发布的数据,可以为商业发展提供数据支持,同时也可以提供给科研工作者用以数据的研究。因此,需要对社会网络数据进行发布。但是,不经处理的数据发布可能导致用户的隐私信息的泄露。 现阶段社会网络数据量庞大,单工作站上执行大规模社会网络算法,存在执行效率低等方面问题。在大数据的环境下,海量数据的处理效率令人堪忧。因此,设计云环境下分布式社会网络匿名算法将会给大规模社会网络数据处理提供有力支持。 本文研究分布并行算法保护大规模图数据,结合MapReduce计算模型和BSP计算模型来实现分布并行处理图数据。MapReduce模型用于迭代次数少,需要进行全局聚类排序的处理步骤。BSP模型可以用于实现迭代步骤多,与图性质关系密切的算法。使用两种模型处理大规模图数据,结合两种计算模型的优点,提高图数据的处理速度,本文的具体研究方案包括以下几个方面: 1.结合社会网络隐私保护技术和大数据处理技术,设计分布式环境下结点分裂隐私保护方法。针对社会网络带标签无向图进行分布式结点信息匿名和分布式结点分裂匿名。分布式结点信息匿名通过 MapReduce方式,以泛化后的结点标签信息为度量标准进行聚类。使用Pregel消息迭代更新模型分裂结点,通过选举分裂结点方式,保证互为邻居的结点不同时分裂。 2.设计针对社会网络动态网络数据的匿名保护方法,使用分布式结点 m-标签匿名处理结点标签,将相似度大于阈值的结点聚类为一组,保护结点标签信息不泄露。分布式结点k-度匿名算法通过不同的图修改策略,保证任意时刻都有至少k个结点有相同的度。最后,使用分布式id随机化技术扰乱id。 搭建分布式处理平台,下载真实社会网络数据集,编程对提出的算法分别从安全性,数据可用性和处理效率方面进行实验验证。从实验结果上看出,本文中提出的两个算法能够有效的提高处理效率,并且数据可用性都能够达到实际需求。