关联规则挖掘中的隐私保护方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liongliong538
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术可以帮助用户从大量的数据中发现有用的未知知识。然而,它的不当使用也可能带来暴露隐私的风险。尤其是当数据需要在不同机构之间共享时,共享数据中可能会包含与数据所有者切身利益相关的敏感知识,如个人的私密信息、商业策略、关系到公司利益的盈利模式、或其他政策不允许公开的敏感知识等。如果数据接收者利用数据挖掘技术从共享数据中发现了这类敏感知识,可能会对数据所有者构成安全威胁。因此,在共享数据之前有必要对其中的敏感知识进行保护,同时尽可能的保障正常挖掘需要。本文主要研究关联规则挖掘中的隐私保护问题,这一领域的研究工作分为两类:一类是对敏感数据本身的保护,另一类是对数据中包含的敏感规则的保护,即关联规则隐藏。本文工作致力于解决与后者相关的问题。对数据中包含的敏感规则进行保护的一般策略是,通过修改部分数据,来降低敏感规则的显著性,使它们从数据挖掘的角度不会被发现。然而,数据修改会产生副作用,包括误隐藏部分非敏感规则,产生原数据库中不存在的虚假规则,以及对原始数据造成一定程度的破坏或扭曲。关联规则隐藏问题的挑战性在于,如何在保护敏感知识的同时,尽可能的减少这些副作用的产生。本文从不同的角度探索了关联规则挖掘中的敏感知识保护问题的解决途径,提出了若干关联规则隐藏的新方法。本文将对这些新提出的方法进行详细描述和讨论分析,并对它们的求解质量进行了实验评测。主要研究内容包括以下几个方面:首先,从多目标优化的角度研究关联规则隐藏问题。现有的大多数关联规则隐藏方法利用问题的某些局部特征降低某一方面的副作用,未能对隐藏过程中产生的各类副作用做全面考虑,这些方法在大多数情况下只能获得问题的局部最优解。并且,不同的副作用之间存在折衷关系,同时最小化会产生冲突,然而这一重要事实却被长期忽视。本文提出了基于多目标优化的隐藏方法EMO-RH,它可在隐藏敏感规则的同时,全面降低伴随的各类副作用,找到问题的全局最优解或近似最优解。实验证实,不同的副作用之间是存在折衷关系的,EMO-RH可以有效的减少各类副作用的产生。EMO-RH鲁棒性好,并且运行一次可以生成多个最优解,反映了优化目标之间的不同程度的折衷关系,用户可以依据自己偏好从中选择一个满意解。为了利用启发式算法计算效率高,可扩展性好的优点,本文提出了一种新的启发式关联规则隐藏方法——Relevance-soring算法。它通过删除项来将敏感规则的支持度或置信度降低到阈值以下,以达到隐藏目的。为了减少副作用,Relevance-sorting算法利用事务与它所包含的非敏感模式之间的关系来计算相关度,选出待修改的候选事务。实验证实,相比于同类方法,Relevance-sorting算法可以有效的减少被误隐藏的非敏感规则。本文在理论方面也做了一定的探索性研究。通过分析副作用产生的原因,提出了基于“边界规则”的概念和相关理论,并设计了基于边界规则的隐藏方法BRDA。数据库中大部分关联规则与副作用的产生无关,只有少部分规则容易受到数据修改操作的影响而演变成副作用。本文通过定义正边界规则和负边界规则的概念,将这类处于临界状态,容易受到影响而演变为副作用的规则提取出来,分析其相关性质。正边界规则非常容易受数据修改影响而被隐藏,每一个被误隐藏的非敏感规则都来自于正边界规则;而负边界规则虽不是强关联规则,但很容易受数据修改影响而变成强关联规则,每一个虚假规则都来自于负边界规则。BRDA算法利用事务与边界规则的关系选择候选集进行修改。实验结果表明,BRDA算法可以非常有效的降低副作用。本文也对基于数据阻塞的关联规则隐藏模式进行了研究,并提出了采用阻塞模式隐藏规则的新算法BRBA。不同于前面几种方法所采用的数据扭曲模式,数据阻塞模式不会在数据库中引入错误信息。对于发布的数据,用户可清晰的区分哪些数据项未被修改过,这在某些应用领域尤为必要。在阻塞模式下,关联规则的支持度或置信度不再是单一的确定值,而变成一个区间,即支持度区间和置信度区间。BRBA通过将敏感规则的置信度区间下界降到指定阈值以下,来达到隐藏目的。采用阻塞模式的潜在风险是攻击者较易识破被隐藏的敏感规则。为了防止这类风险,BRBA在执行过程中,有意提高虚假规则的数量,因为虚假规则与隐藏后的敏感规则具有相同的特征,存在一定数量的虚假规则,可以使攻击者难以分辨出敏感规则。
其他文献
1碳纤维是国家战略性新材料碳纤维,是一种含碳量在95%以上的新型纤维材料。碳纤维的微观结构类似人造石墨,是乱层石墨结构,在沿纤维轴方向表现出很高的强度。碳纤维有众多的
关于通识教育,人们常常有各种各样的正读与误解。内涵理解不清必然影响到通识教育实践。本文首先分析了从英文“generaleducation”概念翻译为中文“通识教育”的内涵。然后,联
摘要:目的探讨听尼特耳呜综合诊断治疗仪对耳鸣的治疗效果,分析其在临床应用的价值。方法采用听尼特耳呜综合治疗仪对100例耳鸣患者进行全面问诊评估、诊断、测试,并在此基础上
<正>资源综合利用是战略性新兴产业的重要组成部分,是推动资源利用方式根本转变、大力节约集约利用能源资源、发展循环经济的有效手段,是落实工业绿色发展要求的坚实保障,也
蓝藻水华预报是应对水危机,保障水资源供给的一项重要工作。以太湖北部三湾(竺山湖、梅梁湾、贡湖)为研究对象,采用动态空间环境建模技术,构建了蓝藻水华预报模型,并通过实地观
数学是一门与实际生活相关联的学科.小学数学更是学生学习数学的基础阶段,相对于之后的数学课程,小学数学与实际生活的关联更显得密切.在这个阶段,如果老师可以找到合适的方