基于差分隐私的频繁项集挖掘方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:zoe8480
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,各行各业都充斥着大量的数据。对数据进行加工处理,从中挖掘出有用的规则信息,对行业中的资源调配、服务改进,乃至于对某些行业的前进方向都具有重要的指导作用。作为数据挖掘中一项重要的技术,频繁项集挖掘近几年得到了充分的发展及应用,成为发现数据项之间关联规则中关键的一环。然而在数据技术不断应用的过程中,个人敏感信息也面临着前所未有的威胁。传统的6)匿名方法在拥有背景知识更加强大的攻击者面前,无法为用户的敏感信息提供足够的保护。2006年,微软科学家Dwork提出差分隐私保护模型,为这个问题提供了一个解决方案。差分隐私技术是利用随机噪声的方式,为用户的敏感数据提供保护。然而这种方案在保护过程中加入了噪声,对数据挖掘的有效性产生了较大的影响。为了在保护隐私不受侵犯的情况下,有效地提升挖掘结果的可用性,本文提出了一种新的基于差分隐私的频繁项集挖掘算法。新算法主要有数据集预处理和带噪频繁项集挖掘两个阶段。具体研究内容如下:(1)在预处理阶段,针对事务截断方法中导致频繁信息丢失的问题,提出了一种事务缩短策略。该策略实现数据集满足事务最大限制长度,降低算法敏感度的,同时避免了截断误差的产生。仿真实验证明,事务缩短策略有效地降低了算法的敏感度,避免了过大的噪声量。(2)在带噪频繁项集挖掘阶段,基于Apriori算法构建频繁项集挖掘模型。针对项集支持度中噪声过大时引起的问题,一方面使用双阈值的方法避免了传输误差的产生;另一方面通过支持度修正策略降低了算法结果中整体的噪音量。仿真实验证明,双阈值和支持度修正策略有效地提高了算法结果的可用性。(3)根据差分隐私的定义,证明了新算法满足差分隐私保护。与SmartTrunc算法的对比仿真实验证明:新算法避免了截断误差的产生并且输出结果中噪声支持度的相对误差减少了约1/3,运算时间相对较短。(4)针对新算法依然存在运算效率较低的情况,采用优化后的Eclat频繁项集挖掘模型替换原有的Apriori挖掘模型,避免了大量对数据集的无效访问。仿真实验证明,改进后的算法运算时间减少为原来的1/5,但存在一定程度的截断误差。该论文有图25幅,表8个,参考文献72篇
其他文献
随着国家经济的高速增长,现有的各类矿产资源无法满足需求。电磁法通常被用来做矿产资源勘查,在地面条件良好的区域,地面电磁法勘探起着非常重要的作用。但是在地质环境恶劣
随着我国海上船舶运输业的发展,港口的船舶吞吐量激增,溢油事故频发。不仅影响附近水域的生态健康,也给沿岸社会经济造成严重的影响,因此防止溢油油品扩散可有效降低溢油事故
混凝土粉料仓是用来储存水泥粉料的密闭容器,目前,粉料仓主要存在冒顶报警不及时的安全隐患,一旦发生冒顶事故,会严重影响当地环境并造成重大的经济损失。再是水泥粉的输出量
随着现代科技水平的发展,空间弯管被广泛的应用于机械工业、国防工业、高新技术及其装备之中,特别是在航空航天和汽车发动机等高精密领域,不仅要求弯管部件具有很好的质量,而
工业生产过程中会伴随大量易燃易爆或有毒气体的产生,为了防止该类气体带来的危害,则需要精确检测出该类气体含量,本文采用仿真与实验结合的方法研究了纳米尖端、微米间距场
泡沫铝具有质轻、比强度高,同时兼具吸收冲击能、阻尼、吸声等特点,在工程、航空航天、汽车等行业具有广泛的应用前景。熔体发泡法成本低、易于大规模生产,是制备泡沫铝的常
Bi基光催化剂由于其独特的层状结构、高效的光催化活性、良好的稳定性、无毒和造价低廉等特点在光催化技术研究中越来越受到关注。研究Bi基光催化剂材料组成及结构也越来越成
滑坡是一种十分严重和普遍的全球性自然地质灾害。在我国滑坡灾害的发生情况极为严重,滑坡灾害每年都会给我国带来巨大的财产损失和人员伤亡,影响发生滑坡区域的基础设施建设
频率分集阵列(Frequency Diverse Array,FDA)的概念最早由Antonik和Wicks提出。FDA利用阵列元件之间的微小频率差来实现自动波束扫描的功能。FDA形成距离相关的波束,因此FDA
确定型优化算法作为全局优化的重要组成部分一直是学者们研究的重点.非线性规划的难点在于如何在众多局部极小点中寻找全局极小点,辅助函数法能够帮助目标函数跳出当前局部极