基于差分隐私保护的频繁项集挖掘算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:aaaaaaaazzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的日益发展,数据俨然已经作为一类非常重要的资源被政府和各种机构所需求,通过对这些海量数据的分析可以获取更多关于当前世界的信息,因此数据挖掘技术随之出现。频繁模式挖掘做为数据挖掘的一种,广泛地应用于推荐系统、个性化网站等应用中.但由于近些年来的隐私泄露事件,使得数据挖掘技术面临严峻的挑战。如何在应用频繁模式挖掘获取有价值模式的同时,实现对个人隐私信息的保护成为该领域的一大研究热点。而差分隐私保护模型,对数据的隐私信息保护指出了一种新的策略,由于其具有严格的数学模型且能有效防止背景知识攻击而受到学术界的关注。如何在差分隐私保护的条件下提高挖掘算法效率以及得到较高可用性的结果集,成为当前本领域的研究重点。木文针对差分隐私下的频繁项集挖掘算法的效率问题开展工作,通过深入分析制约差分隐私保护算法效率的因素,研究提出改进算法,主要成果如下:1)针对 DP-topkP(Differentially Private top-k Patlern Mining)算法在包含大量长事务的数据库中,当最小阈值minsup逐渐变小或者事务数据集不断增长时,会耗费大量时间的问题,提出一种高效的DP-topkP改进算法DP-OPtopkP(Differentially Private Optima]top-k Pattern Mining)。新算法借鉴截断事务思想,采用一种长度选择机制对事务数据库首先进行前置处理;其次,对FP-Growth算法挖掘得到的候选频繁项集,采用闭频繁项集思想缩减集合规模。实验结果表明,改进算法DP-OPtopkP在效率上有所提高,并具有较好的可用性。2)针对在大规模数据集条件下,改进算法DP-OPtopkP运行所带来的FP-tree树可能无法驻足内存,导致算法总体运行效率迅速下降的问题,提出DP-OPtopkP的并行改进方案,该方案的主要思想是对数据进行分批同步处理。首先将截断后的数据集按既定的要求进行划分:然后在每一分区上单独运行FP-Growth算法;之后对候选频繁项集进行划分,在每一分区上单独运行闭频繁项集算法;最后对结果集进行相关计算。针对大规模数据集的实验结果表明,并行化的DP-OPtopkP的算法有明显的优势。
其他文献
随着电子设备复杂度愈来愈高,对它的可靠性要求也愈来愈高,于是就需要对电子设备故障适应性进行分析、解决它存在的一些故障问题,来提高它的可靠性;而1394总线故障注入系统能够营造故障测试环境,真实的模拟故障错误,检测电子设备在性能与功能设计方面的缺陷,进而来解决其中的故障问题。因此1394总线故障注入系统为电子设备提供了一种强有力的验证工具,对提高电子设备的可靠性与稳定性尤为重要。本文首先提出了 13
在当下的信息化社会中,保护自己的信息、隐私和财产安全对每个人来说都是十分重要的,但频频出现的各种信产被盗事件又让人们苦于找不到一个有效的方法来保护自己的信息财产安全。生物识别这一身份认证方式,逐渐替代着传统的认证方法,成为人们保卫信息安全的首要选择。其中,掌脉是人体所拥有的一种独特且稳定的生物特征,其隐藏于皮下,结构复杂,与其他生物特征相比更具安全性。作为生物识别领域的前沿课题,掌脉识别技术因其优
电气设备的大面积推广与使用,凸显了电气资源供应的重要性。在电力产业发展期间,供电单位经营体系逐渐壮大。电能产品具有资源特殊性、供电专业性、电损控制技术性等特点,分别从发电、供电、耗电等视角,构建电力服务体系。因此,在电力行业有序发展的过程中,需有效落实电能计量管理,以确保电能管理效果,增强人们的用电体验。
期刊
近年来,随着外包数据业务的发展,数据安全变成了一个急需解决的问题。基于属性的加密是云存储中数据安全的一种有效的解决方案,能够实现数据的细粒度访问控制。关键词可搜索的基于属性的加密能够保证数据拥有者授予用户搜索能力,但是大多数方案不能保证访问结构的隐私性。在实际中,单权威的加密方案存在安全性不高等缺点。本文主要研究了云存储环境下关键词可搜索且属性可撤销的基于属性的加密方法,主要研究成果如下:提出了一
在监控领域,随着计算机硬件方面的不断改善,目标跟踪的应用越来越广泛。但由于单视觉传感器在目标信息的提取方面的不足,在场景比较混乱,或者长时遮挡等情况下容易发生目标丢失。多视觉协同目标跟踪可以有效解决这些问题,尤其对于目标的长时遮挡。因此,本文提出了一种基于概率模型的多视觉协同目标跟踪的方法,通过多次实验,在目标的长时遮挡方面取得了较好的效果。本文的内容主要包含以下三个部分:针对单视觉中目标特征提取
随着时代的不断前行,拍摄工具硬件的日新月异,拍摄的图像越来越清晰,人们对于图像的质量的要求也是越来越高。逆光图像的产生是因为拍摄环境导致被拍摄主体区域的亮度较暗,颜色和细节信息严重丢失;而背景区域的亮度较大,颜色呈过度饱和,极大地降低了图像质量不能达到人们的要求。因此,逆光图像增强算法的研究是具有重要意义的。目前针对逆光图像增强的算法鲜有研究。逆光图像与光照不均匀图像相似,利用光照不均匀图像增强算
随着我国城市基础设施建设的快速发展,地下综合管廊建设规模不断扩大,对其施工建设信息化、智能化水平提出了更高的要求。面向具体施工需求的BIM技术应用研究,为解决地下综合管廊施工建设中存在的问题提供了可行的方法,本文针对地下综合管廊施工阶段的不同需求,设计地下综合管廊BIM应用实施方案,研发地下综合管廊施工快速计量工具,并结合倾斜摄影技术辅助地下管网迁改,主要研究内容如下:(1)分析BIM技术在地下综
随着云计算的发展,数据外包到云服务器引起了广泛关注。为了保证数据的存储安全性和实现细粒度的数据访问控制,基于属性加密方案成为解决云存储安全问题的研究热点之一。可撤销的基于属性加密是属性加密的延伸与扩展,对于解决实际应用中用户属性变更,具有重要的研究价值和现实意义。关键词可搜索加密方案能够使用户快速查找出存储在云服务器中自己感兴趣的数据,而且不会泄露搜索关键词的信息,从而保证用户搜索的高效性和安全性
数据挖掘是通过机器学习、模式识别和数理统计等方法获取有用信息的一种重要技术手段,可以广泛应用于社交网络、医疗和市场分析等领域。随着数据挖掘应用的不断深入,隐私泄露风险日益成为数据挖掘中一个敏感而突出的问题。K-means聚类算法是数据挖掘领域中应用广泛的算法之一,差分隐私保护理论由于其具有严格的数学模型且不受背景知识约束等特点成为数据挖掘隐私保护技术的重要分支。差分隐私保护是一种基于数据扰动的隐私
在当今这个信息共享的大时代背景下,数据挖掘与数据发布中存在的隐私保护问题,一直是信息安全领域正在深入研究的重点。其中,匿名化技术是当前主要的隐私保护技术之一,它能够有效降低用户的隐私信息被泄露的风险,同时又能保证数据存在一定的真实性与可用性。除此之外,差分隐私保护技术也是隐私保护技术的研究热点之一,它具有严格的数学证明,能够克服传统的隐私保护模型所需背景知识假设和无法定量分析隐私保护程度的缺点。但