面向信息共享的数据流隐私保护方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:qiaobianhongyaogqw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据流作为一种普遍存在的数据形式,吸引了越来越多数据挖掘研究者的关注,快速有效地针对数据流的一遍扫描式数据挖掘算法给人们提供日渐丰富的有价值信息,帮助提供决策支持,然而,数据流挖掘技术的飞速发展,也不可避免的给数据隐私和信息安全带来了威胁。敏感信息有时可能就是原始数据或数据挖掘所发现的知识本身,或者可能通过数据挖掘知识中的非敏感信息被推理得到。面向信息共享的数据流隐私保护方法研究,不仅可以在数据流环境下,实现对敏感信息的保护,消除信息拥有者共享信息时的担忧,从而营造更加安全、开放的信息共享环境;而且在保护敏感信息的同时,充分考虑对非敏感信息完整性的影响,最大程度的降低隐私保护方法给非敏感信息所带来的信息损失,从而使得被共享的信息保持较高的价值及有用性。本文立足于实现数据流环境下安全的信息共享,在保证共享信息高可用性的前提下,对原始数据流以及关联规则挖掘知识的隐私保护技术进行更加细致有效的研究:首先,针对传统的k-匿名方法无法表现数据流的特征以及无法动态解决数据流共享时所存在的链接攻击问题,提出自上而下具体化树结构来完成多数据类型的准标识符属性的泛化,通过树的分支及剪枝动态实现数据流的k-匿名保护;同时,针对数据流匿名保护往往伴随较高信息损失的问题,引入数据的分布密度以及延迟共享两个限制参数,并以此来选择满足k-匿名且产生信息损失最小的树节点进行共享;在此基础上,结合滑动窗口技术,提出数据流k-匿名保护算法(KIDS);最后,通过实验表明:与传统的k-匿名方法相比,KIDS算法在匿名数据流时不仅所产生的时间代价更小,而且KIDS在不同的k参数和不同的数据量下所产生的信息损失也更小,能够很好的保持共享原始数据流的高可用性。其次,针对静态数据的敏感规则隐藏方法应用于数据流时无法保持敏感规则安全性的问题,提出一种基于改进项头表的频繁模式树(IMFP-Tree),并以此为基础,提出面向数据流的敏感关联规则隐藏算法(HSRDS)。基于改进的频繁项头表来解决传统频繁模式树(FP-Tree)需要不断统计项的支持度计数而不适用于数据流的问题,并增加节点域ListTi来解决传统频繁模式树因无法表示交易数据与项的包含关系,而很难快速确定敏感交易的问题;另外,定义了两个信息损失度量阈值来选择被清洗的数据项,解决数据清洗技术带来的高信息损失问题;最后,通过实验表明:IMFP-Tree相较于传统的频繁模式树FP-Tree可以更快的完成数据流清洗,并且,与算法Algo2a和SWA相比,算法HSRDS会产生更小的负面效应,能够有效的保持敏感规则隐藏与数据有用性之间的平衡。再次,针对数据流共享时,数据清洗方法实现敏感规则隐藏后,被隐藏的敏感规则仍然面临隔离攻击问题,提出了一种被隐藏敏感规则的k-匿名保护方法(SRA),完成对敏感规则的双重保护;同时,针对现有的规则匿名方法需要二次清洗数据不适用数据流的问题,结合了时间滑动窗口技术,采用追加交易的流数据处理方式;并且,提出对数据项采用素数编码的方法,进一步提高算法效率、降低空间复杂度;针对SRA算法在k值偏高时产生过高信息损失的问题,提出改进的敏感规则k-匿名算法(ASRA);最后,通过实验表明:与算法ARH相比,算法SRA和ASRA产生更小的时间代价以及更低的信息损失,当数据量增大时尤其如此。同时,算法ASRA相比于SRA产生的信息损失更低,能够更好地保证挖掘结果的高有用性。最后,针对数据流环境下被共享的关联规则间所存在的相关性易对敏感规则造成推理攻击威胁,基于规则净化的思路,提出一种快速有效的、最小化信息损失的敏感规则推理攻击阻塞算法(BIA)。由于现有的频繁模式推理通道不足以定义关联规则的所有推理攻击,通过分析关联规则的推理特征,定义了四种可能存在的敏感规则的推理攻击渠道:分解式推理攻击、聚合式推理攻击、传递式推理攻击、链式推理攻击;并且,针对基于频繁模式的推理攻击阻塞方法会对非敏感规则产生较高的信息损失问题,提出基于关联规则的推理攻击渠道的阻塞方法;最后,通过实验表明:算法BIA不仅能更加全面的阻塞敏感规则的推理攻击渠道,比算法DSA和BINFCH更适合数据流环境,并且产生更低的敏感规则的暴露率以及非敏感规则的信息损失。
其他文献
一、调研概述  调研时间:2008.1.15--1.16;调研地点:本企业公司总部大会议室;调研对象: 北京商场本企业各专柜导购;调研目的:掌握顾客对于面料的喜好,及本季面料流行动向,便于推出更受顾客欢迎的产品,提高销售业绩。同时调整产品结构和质量。  二、调研统计分析  关于产品面料的调研中采取了多维立体式的调研方法,从目前市场上最欢迎和公司目前畅销两方面进行调研。  1.关于目前市场受欢迎面料
<正> 珠算是我国劳动人民在长期的生产劳动实践中创造发明的一种古老的传统计算工具,这种计算工具在经济事业中的经济效益如何,这也是一个值得了解与探讨的问题,因为它与学习
~~站在民族筑路机械技术进步最前沿——孙祖望教授访谈@泽华
《中西医结合内科学》是中西医结合医学中最重要的临床学科之一。由于《中西医结合内科学》目前仍处在中医内科学与西医内科学二者进一步相互兼容、相互渗透、优势互补、相互
目的探讨心理护理模式对急性冠脉综合征合并糖尿病患者介入手术前后心理状况的应用效果。方法选取2015年4月—2017年4月在该院接受介入手术治疗的84例急性冠脉综合征合并糖尿
神经外科类疾病的主要治疗方法是手术,由于其多作用于人体最脆弱的脑部,因此手术精度较高,风险也较大。手术会对脑部神经及周围组织造成一定的创伤,可能会发生颅内感染引起患
战争集中体现了不同阶级、集团利益冲突的尖锐化。核技术在战争中的运用加剧了人类战争的惨烈程度。道德的相对性和阶级性使核武器陷入道德的两难境地。从人类整体和整个生态
基金项目:首都经济贸易大学校级科研项目(2008XJ003)“城乡一体化进程中村庄数量经济研究”主要内容  [摘 要] 本文通过对北京郊区村庄的经济收入、产业结构、用地特征等指标的对比分析,揭示出预期总人口变动对村庄经济发展的影响,为北京市解决郊区农村居民点的合理布局问题提供数量依据。  [关键词] 城乡一体化 北京郊区村庄 数量经济研究    一、课题研究背景  在北京市进入了人均地方生产总值6
随着计算机技术和互联网的快速发展,可视媒体已成为互联网时代视觉信息展示和传输的重要媒介。与其他信息传输模式相比,可视媒体兼具数字化、普适性和直观性等特点。随着可视
<正>病例1,男,87岁。主因腹痛伴发热6 d于2013年12月24日入院。6 d前患者无明显诱因出现脐周疼痛,肚脐有渗液,为白色臭味液体,伴发热,体温最高达38.5度,无恶心、呕吐及腹泻症