论文部分内容阅读
本文主要针对关联规则的隐私保持进行研究。首先介绍了隐私保持的相关概念,隐私保持和信息安全的区别,数据挖掘隐私保持的分类以及用于隐私保持的一些技术:数据转换、数据随机变化、布尔值转换方法。然后从分析关联规则算法的模型入手,Apriori算法是挖掘产生关联规则所需频繁项集的基本算法,它也是一个很有影响的关联规则挖掘算法。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。挖掘关联规则主要包含二个步骤:一发现所有的频繁项集,根据定义,这些项集的频度至少应等于(预先设置的)最小支持频度;二根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小信任度阈值。只有满足以上两个条件的关联规则才是强规则,规则X=>Y的支持度是X和Y同时出现的频率,反映规则的实用性或普遍性;而置信度是X出现时Y出现的频率,反映规则的确定性或可信程度。
隐私保持的关联规则挖掘算法的基本思路就是要降低需要隐藏的关联规则的支持频度或者降低它的信任度阈值使它不满足≥min_sup或者≥min_conf的任意一个条件。而关联规则的支持度、置信度是和前端项集、后端项集、生成项集直接相关的,修改原始数据库中的项集,能够直接降低关联规则的支持度和置信度。于是引出了两种通过降低关联规则的置信度(confidence)来隐藏关联规则的算法,以及一种通过降低关联规则的支持度(support)来隐藏关联规则的算法,给出了这三种算法的伪代码以及流程图,并分析了这三种算法各自的优劣,以及它们的适用范围。这三种算法虽然能有效地保护数据拥有者的隐私信息,但缺点是效率都不是很高。
在这三种算法的基础上,提出了敏感度的概念,通过分析关联规则的敏感度,数据记录的敏感度,形成关联规则隐私保持算法的整体框架。在降低关联规则支持度或置信度之前,这种算法框架分析敏感关联规则的信息模式和原始数据库的结构,使得算法的整体效率有很大提高,达到了数据库信息的准确性和敏感信息的隐私性平衡的目的。在算法研究的最后通过一个商场交易数据库的具体例子,用以上四种算法对固定的敏感关联规则集进行运算,比较它们的运算结果。得出敏感关联规则算法确实能大幅提高隐私保持算法的效率。