隐私保持的关联规则挖掘研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:WOBENLAI
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要针对关联规则的隐私保持进行研究。首先介绍了隐私保持的相关概念,隐私保持和信息安全的区别,数据挖掘隐私保持的分类以及用于隐私保持的一些技术:数据转换、数据随机变化、布尔值转换方法。然后从分析关联规则算法的模型入手,Apriori算法是挖掘产生关联规则所需频繁项集的基本算法,它也是一个很有影响的关联规则挖掘算法。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。挖掘关联规则主要包含二个步骤:一发现所有的频繁项集,根据定义,这些项集的频度至少应等于(预先设置的)最小支持频度;二根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小信任度阈值。只有满足以上两个条件的关联规则才是强规则,规则X=>Y的支持度是X和Y同时出现的频率,反映规则的实用性或普遍性;而置信度是X出现时Y出现的频率,反映规则的确定性或可信程度。   隐私保持的关联规则挖掘算法的基本思路就是要降低需要隐藏的关联规则的支持频度或者降低它的信任度阈值使它不满足≥min_sup或者≥min_conf的任意一个条件。而关联规则的支持度、置信度是和前端项集、后端项集、生成项集直接相关的,修改原始数据库中的项集,能够直接降低关联规则的支持度和置信度。于是引出了两种通过降低关联规则的置信度(confidence)来隐藏关联规则的算法,以及一种通过降低关联规则的支持度(support)来隐藏关联规则的算法,给出了这三种算法的伪代码以及流程图,并分析了这三种算法各自的优劣,以及它们的适用范围。这三种算法虽然能有效地保护数据拥有者的隐私信息,但缺点是效率都不是很高。   在这三种算法的基础上,提出了敏感度的概念,通过分析关联规则的敏感度,数据记录的敏感度,形成关联规则隐私保持算法的整体框架。在降低关联规则支持度或置信度之前,这种算法框架分析敏感关联规则的信息模式和原始数据库的结构,使得算法的整体效率有很大提高,达到了数据库信息的准确性和敏感信息的隐私性平衡的目的。在算法研究的最后通过一个商场交易数据库的具体例子,用以上四种算法对固定的敏感关联规则集进行运算,比较它们的运算结果。得出敏感关联规则算法确实能大幅提高隐私保持算法的效率。
其他文献
实时系统在各领域尤其是嵌入式领域有着广泛的应用,它一般被用在对时间要求非常高的装置上。对于很多实时系统,如果其设计在逻辑、时序方面出现偏差,将会引起严重的后果。随着实
本文在大量调研的基础上,论述了国内外城市地质信息系统数据组织与管理发展状况和趋势,重点论述了当前我国城市地质数据组织与管理技术的发展遇到的问题,而后提出了基于城市地质
本文提出了在客户端采用动态反馈缓冲的算法。该算法的原理是在客户端动态划分一段内存空间作为来自发送端的流媒体的数据缓冲,根据不同网络情况动态改变该缓冲区的大小,使得客
互联网行业的不断发展壮大所带来的数据风暴充斥着人们的生活,特别是由此而带来的商业价值吸引着众多人的眼球,而巨大的商业价值来源于对海量数据的提取分析,但是传统的数据挖掘
本文以湖南省国土资源厅电子政务建设为研究背景,以系统科学理论为指导,综合运用信息学、计算机科学、土地资源管理学等多学科知识,应用软件工程的理论和方法,通过对湖南省国土资
本文论述了LINUX内核结构及其开发实践。 1991年,linus torvalds开发出最初的Linux,这个操作系统适用与基于intel 80386微处理器的IBM PC兼容机。现在,linus依然不遗余力的改
地图能对真实世界进行模拟,是一种高度抽象化、概括化的模型。随着科学技术的不断提高,地图技术的发展也在飞速前进。地图符号作为地图的语言,能直观地表达地理事物和可视化展现
随着计算机的不断普及,互联网的快速发展,人们对传统的教学模式不再满意,而此时网络课程应运而生。传统教学模式以老师为主,老师和学生同时处在教室,老师主动向学生授课,学生则被动
World Wide Web(简称Web)自诞生起,其规模在短短十几年间呈指数级增长。由于Web的存在,人们可以方便得获得大量信息。但同时Web信息的海量性、复杂性、分布性以及非结构性,使人
云计算、移动互联网、物联网等新兴技术的快速发展促使数据的规模爆炸式的增长。丰富的数据来源和多样的数据结构使得半结构和非结构化的数据比重越来越大。大数据环境下充分