基于小波变换的K-DBSCAN隐私保护聚类算法

来源 :江苏大学 | 被引量 : 0次 | 上传用户:moneymoneyoh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,网络技术不断发展,数据规模成几何增长,通过数据挖掘技术对原始数据提取分析,获得了有价值的知识。然而数据的隐私问题引起了挖掘应用者的高度重视,尤其是在分布式环境下。数据扰动技术是简单高效的隐私保护方法,为了达到隐藏保密信息的效果,多使用噪声对原始数据进行扰动,但其适用于集中式环境中。DBSCAN对簇集使用基于密度的定义,因此它受数据对象中的噪声点影响较小,并且对簇集的形状和大小没有特殊要求。该特性使得DBSCAN算法在隐私保护技术下能够发现更多的簇。然而DBSCAN算法并不是完美无缺的,其算法自身仍存在计算复杂度高、对高维和变密度簇的处理能力差等缺陷,当数据集趋向于海量、稀疏分布时,这种缺陷表现的更为明显。  针对上述问题,本文使用小波变换作为隐私保护方法,其对原始数据扰动的同时降低数据的维度,并使用相应的安全协议保证分布式环境下的交互安全。重新定义临近性度量和核心密度可达链,对基于密度的聚类算法进行改进。进一步降低簇邻接数据对聚类准确度的影响,与基于小波的隐私保护技术形成一个整体,为分布式环境下的数据提供良好的处理环境。本文的主要工作如下:  1)针对DBSCAN算法计算复杂度高、对高维和变密度簇的处理能力差的问题,提出改进的K-DBSCAN算法。使用K近邻来反映数据对象之间的相似性关系,减少对高维和变密度数据的聚类误差。而构建K最近邻时间复杂度较高,为了提高算法的效率,使用kd树的方法有效找出K最近邻,降低计算复杂度。定义核心密度可达链替代密度可达链,用一个仅包含核心点的核心密度可达链来进行扩展聚类,以此提高聚类的准确性;  2)针对现有分布式隐私保护算法无法满足效率与隐私之间较好折衷的问题,提出基于安全多方计算与小波数据扰动相结合的分布式隐私保护聚类算法。各数据方使用小波变换实现数据压缩和信息隐藏,并用属性列的随机重排来防止数据重构可能产生的信息泄露。该算法仅使用压缩重排后的数据参与分布聚类计算,因此计算量和通信量小,算法效率高,而多重保护措施有效保护了隐私数据。因小波变换具有高保真性,所以聚类的准确性受其扰动变换的影响较小。理论分析和实验结果表明,所提算法安全高效,在处理高维数据时全局F测量值和执行效率优于同类算法,解决了效率与隐私之间的折衷问题;  3)该方法在现实生活中具有应用价值,因此设计并实现了基于小波变换的K-DBSCAN隐私保护聚类算法的原型系统。使用数据对系统进行测试,测试的数据分析表明系统运行良好,达到预期效果。
其他文献
近年来,关于下一代互联网和物联网的研究成果日渐丰富,新的数据通信和传输方法不断涌现。其中,新的路由协议是新型网络的关键部分,其正确性直接影响着网络的稳定性。然而路由协议
随着经济、社会以及网络技术的发展,如何保障网络上传输的信息的安全性越来越受到人们的重视,信息隐藏技术的研究已成为信息安全领域的焦点。Word2007是办公处理软件的代表产品
目的:精神性疾病是一类广泛影响患者情绪、社交和认知功能的疾病,给患者及家庭带来沉重的生活负担。对精神类疾病的精确诊断、及早干预意义重大。然而,目前对各类精神疾病的
随着计算机网络规模的不断扩大和通信技术的迅速发展,IPv6协议越来越受到关注。IPv6协议拥有超大的地址空间,解决了IP地址匮乏的问题,而且提高了网络吞吐量,可以更方便更好地支持
虚拟实验室能够低成本、方便快捷地实现实验教学,已成为各高校和研究机构实践教学的有效补充。但由于虚拟实验室用户负载的大幅变化,服务器等硬件资源往往按负载峰值数量配置
随着大数据时代的到来以及云计算等先进数据技术的发展,高维数据处理已经渗透到科研和生活的各个方面,在诸如科学研究、生物医学、网络通信等众多领域起到至关重要的作用。作为
目标识别与目标定位是计算机视觉领域的一个重要分支,随着数字图像在互联网上的爆炸式增长,基于图像局部特征的目标匹配开始在图像检索中占据越来越重要的地位,图像的整体分类已
分析和识别单体型对复杂疾病致病基因的精确定位有重要作用。单体型组装问题是利用个体DNA测序片段数据推出该个体一对单体型的计算问题。根据不同的优化准则,单体型组装问题
随着新农保的慢慢普及,传统的人工登记与发放模式对领取养老金资格审核工作带来了极大难题,有限的工作人员难以完成繁杂的审核工作;同时,农村及偏远地区的参保人员资格审查难以