一种基于重叠式剖分的数据匿名方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:BerrySZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet、数据存储和信息科学的迅猛发展,大量与个体相关的数据被政府部门或研究机构广泛收集并发布。然而,这些以数据挖掘与知识发现、数据共享等为目的的数据发布过程往往都会导致个人隐私信息的泄露。针对数据发布中匿名方法存在的低相关属性间的关联识别导致隐私泄露的问题,本文提出一种基于重叠式剖分的数据匿名方法。该方法主要分四个部分,首先是属性剖分,主要思想是通过断开低相关属性间的联系来保证数据的安全性,因为非强关联属性会由于出现的频率比较少从而更容易被攻击,同时保持高相关属性间的联系来提高数据可用性,并给出切实可行的属性剖分算法。针对数据属性的剖分,本文采用了基于模糊聚类的方法,针对模糊聚类算法FCM的孤立点敏感性问题作了相应的改进,得到一种新的模糊聚类算法WFCM,并作了相应的验证对比实验。实验表明,在聚错样本数和准确度方面综合考虑,WFCM算法与原始FCM算法相比表现更好。其次是数据记录分组,使数据表满足l-diversity匿名策略,同时也给出了数据集记录分组算法。再其次是对含有敏感属性的属性组中的准标识符属性进行局部概化处理,以此来保证隐私数据的安全。最后采用UCI机器学习数据库中的Adult实际数据集,通过与Generalization、Anatomy、Slicing三种匿名方法进行多次对比实验,结果表明重叠式剖分方法相较于以上三种方法,在满足l-diversity匿名策略的前提下,提高了匿名数据的可用性,并且拥有较好的计算效率。
其他文献
随着经济的发展和信息科技的进步,电子商务逐渐成为当今业务贸易的趋势。快递行业作为近来新兴的行业,更是得到了飞速发展,其对信息处理的要求也越来越高。然而,快递行业的处
由于数据挖掘是从大量真实数据中提取有价值的知识,在数据挖掘的过程中很可能会引发敏感信息的泄露,这就带来了隐私保护方面的诸多问题。因此,如何在保护隐私的同时得到满意的挖
移动计算环境的移动性、灵活性等特点使其具有广泛的应用前景,但是它的带宽窄、无线通讯易受干扰等特性也会导致系统出现故障,所以在移动计算环境中引入容错技术是目前研究的
随着现代科技的发展和3C的融合,一场围绕“显示为中心”的无线大革命拉开了序幕。这场无线大革命已经从90年代的数据网络向21世纪的视觉网络迈进,同时数字家庭也从第一代向第二
近年国外HIS(Hospital Information System,医院信息管理系统)领域十分重视中间件技术的研究与应用,国内也进行了大量研究。软件厂商使用中间件技术,主要是为了解决HIS的维护
语料库是研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。语料库在自然语言处理的许多方面都有重要的应用价值,语料库的建立为语言学的研
本文运用爆破理论、放矿理论、松散介质力学、最小耗能原理和数值计算等相关理论,采用实验室研究与理论分析相结合的方法,设计了实验室模型,对崩落体的形成过程与形态进行了物理
面向方面编程(AOP)强调将软件系统中的横切关注点从核心业务中分离,单独以模块化的方式进行实现。这种思想很快被广大程序开发者所接受,相关技术及运用也得到了迅速发展。在
XML(eXtensibleMarkupLanguage)具有强大的数据表达能力以及简单、开放、可扩展等优点,因而逐渐成为互联网上信息发布和数据交换的事实标准。XML研究中的一个关键问题就是如何
安全套接层SSL(Secure Socket Layer)是世界上部署最为广泛的安全协议。传输层安全协议TLS(Transport Layer Security)是SSL的后继。尽管TLS最常见的用途是保证Web通信的安全