论文部分内容阅读
随着网络技术的发展,数据的电子化程度越来越高,数据的应用范围变得越来越广。数据发布作为信息共享的一种手段,在为数据交换和数据共享提供便利的同时,数据发布过程中的敏感信息泄漏问题也日益突出,对个人隐私带来了威胁。如果个人隐私信息被共享,将会给相关人带来很大危害,因此,必须对数据中涉及隐私的信息进行保护,对数据中涉及隐私信息的敏感属性进行约束,使最后发布的数据不会泄露隐私信息。所以如何保护隐私和防止敏感属性泄露就变成了数据应用方面的研究热点。
本文介绍了数据匿名和聚类的基础知识,分析概括了聚类方法在敏感属性匿名保护方面的研究现状,在此基础上,针对l-多样性匿名原则,提出了一种基于聚类的敏感属性保护方法,该方法所产生的信息损失较少,具有较高的数据可用性。为了进一步提高算法的运行效率,采用k-prototypes聚类算法对敏感属性实现匿名保护,针对k-prototypes聚类算法因随机选择初始点而导致聚类结果不准确等问题,提出了一种初始点选择方法,并将之用于基于k-prototypes的敏感属性保护方法中,取得了较好的效果。
论文的主要研究工作包括以下四个方面:
1、总结了数据匿名及聚类在隐私保护中的研究现状,介绍了聚类和数据匿名化方面的相关理论知识及技术。
2、针对k-prototypes聚类中因随机选择初始点而产生的问题,提出了一种初始点选择方法,并将该方法应用于k-prototypes聚类算法中。实验结果表明该方法可以获得较高的聚类结果准确率。
3、针对敏感属性的匿名保护问题,提出的一种满足l-多样型模型的基于聚类的敏感属性保护方法LS-clustering。实验结果表明LS-clustering算法所产生的信息损失较少,具有较高的数据可用性。
4、为了进一步提高匿名保护方法的运行效率,提出了一种基于k-prototypes的敏感属性保护方法,该方法采用改进了的k-prototypes聚类算法。实验表明该方法具有较好的运行效率。