基于负数据库的隐私保护k-means聚类算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:salih0997
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,用户的隐私保护是一个关键问题。作为数据挖掘的经典算法,原始k-means算法常用于对明文数据进行聚类分析,没有考虑到隐私保护的问题。已有工作研究支持隐私保护的k-means算法,但是一般有计算成本高(例如加密算法),精度损失大(例如数据扰动方法),通讯成本高(例如安全多方计算)等缺点。负数据库作为一种新型的数据表示方法,存储的是原始数据库补集中的信息,其难以逆转的特性可以用于保护原始数据的隐私。负数据库支持距离度量,可以被应用到k-means聚类分析中保护隐私。负数据库上现有的隐私保护k-means算法只能支持基于海明距离的相似度计算,但是现实中很多数据的相似度计算都是基于欧式距离的,这大大限制了该方法的适用范围。并且该方法将实数转化为二进制编码,编码的长度取决于数据库中不同实数值的数目,这使得该方法仅适用于结构简单、属性值少的数据,实用性较差。针对上述情况,本文利用欧氏距离二进制数编码方式中编码位数只与属性值大小相关的特点,提出了面向负数据库的欧氏距离计算公式。在此基础之上,提出了一种新的基于负数据库的隐私保护k-means聚类算法,并改进了负数据库的生成算法以进一步提高聚类的精度。具体工作如下:1)提出了面向负数据库的欧氏距离估算方法。根据负数据库的特点,通过贝叶斯定理进行概率计算后,可以在已知一个负数据库和一个实时串的前提下,估算出负数据库所隐藏的串和实时串之间欧氏距离。通过模拟数据进行误差实验,验证了面向负数据库的欧氏距离估算方法的准确性。2)提出了一种基于负数据库的隐私保护的-means聚类算法。主要思想是用K-hidden算法对聚类数据生成负数据库进行保护,并给出了欧氏距离在负数据库上的度量方法进行聚类过程中的计算。通过实验证明了我们所提出的隐私保护-means聚类算法可以在保护隐私的同时达到接近原始-means算法的聚类效果。3)提出了一种负数据库生成算法(称为QK-hidden算法),并构建了一种细粒度的隐私保护k-means方法,提升了聚类精度。在K-hidden负数据生成算法的基础上,QK-hidden算法引入了一组参数对每一个属性位的取反概率进行细粒度控制,从而可以控制每一个属性位的估算准确度和隐私度。根据QK-hidden算法的特点,提出了面向QK-NDB的欧氏距离估算方法。将该方法应用到隐私保护的-means算法中,通过实验验证了QK-hidden算法可以提高原有隐私保护的-means算法的聚类精度。
其他文献
信任是当今心理学与社会学研究的热点问题,是各种组织环境中必不可少的协调机制,很多研究长期以来一直强调信任的积极影响。但是,如果没有把信任用对地方,信任也会功能失调,产生消极影响。因此,精准地将信任运用于各种社会组织环境对完成一项高质量的工作就显得尤为重要。但是,信任准确度的情境预测因素的探究非常有限。虽然许多研究在探究人际信任现象时主要关注特质水平预测因子,例如个体的广义信任倾向或受害者敏感性等,
通信工程和计算机技术的迅速发展将人类社会带入到了信息时代,数据库中存储的数据量也急剧增大,如何在海量数据中分析和获取有价值的知识成为人们日益关注的问题。文本聚类分析是信息数据挖掘的一个重要研究方向,可以直观地反映数据间的分布特点,更好地发现数据集中内在的类别特性。K-Means算法作为聚类分析算法中最为普遍应用的算法之一,尽管时间复杂度较低且易于实现,但在处理具有高维性和稀疏性的数据时,容易出现局
作为一种重要的有机化工中间体,二苯甲烷二异氰酸酯(MDI)广泛应用在聚氨酯(PU)、涂料、胶粘剂等行业。目前,MDI主要通过光气法生产。其原料光气剧毒且副产物HCl腐蚀性较强。
等离子体医学是等离子体与临床医学等学科相融合的新兴交叉领域,其中气相区活性氧和活性氮物种(Reactive Oxygen Species and Reactive Nitrogen Species,RONS)的原位定量诊断
在如今高速发展的科技时代中,机械臂在制造业、农业、医疗业等都得到了广泛的应用,与之相关的机械臂控制技术研究也自然成为了学者们着重关注的方向。为了完成任务,机械臂通常需要在给定的时间内精准地按照预定的轨迹运动,也因此轨迹跟踪问题成为了机械臂控制技术研究中关键的一点。外部干扰作为影响机械臂轨迹跟踪性能的主要因素,当其可以被检测到时,前馈方法可以很好地减弱干扰带来的影响。然而,外界干扰通常难以测量,所以
随着信息技术的高速发展,数据的规模呈现指数级别增长,如何从这些数据中发现潜在的、价值高的信息是目前数据挖掘领域面临的主要挑战。伴随着数据流的出现,针对数据流的挖掘
传统的搜索引擎以关键字组合的方式进行检索,返回一系列相关网页,需要用户进行多次筛选才能获得需要的答案。知识库问答系统融合了信息检索(Information Retrieval,IR)和自然
当前是我国经济面临着转型升级的关键时期,国内供给侧结构性改革蓬勃展开,国际上要应对美国的贸易战。为了国内经济成功转型以及应对一系列国际挑战,此时对技术创新对产业结构的影响进行更深入的研究非常有意义。总体上技术创新资金投入主要是试验发展的资金投入和企业资金对二三产业的产值结构有正向的促进作用,即能显著地相对提高第二产业的产值比例。应用研究和试验发展的人力投入都对二三产业的就业之比有显著影响,但应用研
随着无线通信技术的飞速发展,卫星通信技术在社会的各个领域得到了广泛的应用。卫星通信是地面通信的重要补充和延伸,可以在海洋、沙漠等无法建造地面基站的地区提供通信服务。但是面对日益复杂的电磁空间坏境、对通信卫星有意无意的干扰问题,如何快速准确的对干扰源进行定位显得尤为重要。首先,本文对卫星通信系统中基于时差和频差联合的无源被动定位技术及系统进行综述,分析了无源被动定位技术的研究背景和意义,同时对无源被
随着社交平台的日益普及,微博因其文字短小、传播速度快受到了广大网友的喜爱,微博文本中蕴含的海量信息也从商业、政治、娱乐等不同方面带来了巨大价值,从而引发了学者们对