基于差分隐私的幂迭代聚类方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:z57989503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,聚类作为一种无监督的数据挖掘方法,通过提取数据的特征信息,以特征作为聚类的基本属性,来实现对数据的信息挖掘。结合线性代数的方法和理论,出现了许多信息数据的特征提取技术,进一步提高特征提取的质量和聚类精度。本文采用一种简单、快速的幂法获取数据集的特征,利用迭代后的特征向量对样本进行聚类,即幂迭代聚类。然而,数据集中往往包含一些隐私数据或者敏感信息,在追求高质量聚类效果的同时难以避免涉及到隐私数据,且忽视聚类发布后数据的隐私安全问题。差分隐私保护模型无需面对可能受到的背景知识攻击,针对任意背景知识的强度,通过参数来量化隐私保护水平,保证隐私信息安全的同时达到聚类效果目的。差分隐私的具体扰动方法,需要结合相应的聚类算法,保证数据集隐私安全的前提下,最大化数据集的可用性。本文提出一种基于差分隐私的幂迭代聚类算法,针对迭代过程中特征向量以及特征聚类过程中心点存在的隐私泄露问题,分别对聚幂迭代类算法的两个层面融合差分隐私保护模型。而传统的差分隐私技术使用数据扰动降低了算法的聚类质量,且容易改变特征向量的收敛方向。因此,依次对迭代过程中的特征向量的属性值添加满足拉普拉斯分布的噪声函数,并实验设置合理隐私预算ε解决传统融合差分隐私技术的缺陷。最后利用差分隐私的序列组合性质证明基于差分隐私的幂迭代聚类算法满足ε-差分隐私,给出算法过程和实现代码。实验通过变量ε测试隐私预算的最佳聚类效果,同时实验不同以幂迭代聚类算法和其在差分隐私条件下的聚类结果做比较。然而,差分隐私技术一定条件下影响聚类效果,但实验数据集结果的可用性仍较高。另外,测试不同参数下的聚类算法聚类质量,并和现有的差分隐私聚类算法做对比分析,在较大的数据集测试下体现出明显优势。
其他文献
致天下之治者在人才。随着经济发展速度和全球一体化程度的加快,经济发展方式改变,产业结构调整,国与国之间、不同地区之间、同类企业之间相互竞争更加激烈,而竞争的本质,说到底还是对人的竞争,对人才的竞争。科技型企业作为国民经济发展的重要支撑,在这场人才的竞争当中,享受着机遇,也面临着挑战。人才的竞争和占有对于科技型企业来说显得尤为重要。本文以坐标一线城市的中小型科技型企业SY科技公司为例,对其人才流失情
近30年来,我国迎来工业鼎盛与经济腾飞高潮,随之而来的却是日趋严峻的环境污染问题。随着近年来国家对环境保护与可持续发展的高度重视,与人们对青山绿水美好生活环境的向往,通过环境治理来还原绿水青山,加速生态建设进程,已成为迫在眉睫的重要任务。但由于城乡环境综合治理的产业服务的公益性与项目构成的复杂性,决定了城乡环境综合治理项目往往具有高投入性。在各地方政府尤其是县级以下地方政府均存在财政压力与政府债务
沥青路面是我国高等级公路的主要形式,路面强度的高低直接影响路面结构的耐久性。目前,国内外常采用最大拉应力或最大拉应变理论作为沥青路面材料的破坏指标,沥青路面结构在
智能电网的建设和发展对信息通信提出了更高的要求,作为电力系统特有的通信方式电力线载波通信(Power Line Carrier Communication,简称PLC)以其高效、经济、可靠、安全的性
本文研究了2003—2014期间,信任作为社会资本对韩国地区经济发展的重要作用。在文献中,韩国的社会资本与经济发展之间的实证研究还没有得到很好的研究。本文重点分析了利用从
钛合金多孔材料比强度高、比刚度高、耐腐蚀性强、具有能量吸收能力、渗透能力以及生物兼容性,是目前应用广泛的植入体材料。人体骨骼为层级结构,由强度、抗压性能、密度较高的密质骨和密度较低、内含血管的松质骨组成,因此,植入体材料的结构设计要与人体骨骼层级结构相匹配。多孔材料的力学性能和变形行为受胞元类型以及基体材料性能的影响,但目前最适合植入体材料的胞元设计仍无定论,因此采用新颖的设计方法进行胞元设计并通
“多元化”的观念最早由美国学者伊戈尔·安索夫于上世纪五十年代末首次提出,随后对于企业多元化经营、企业绩效以及二者间关系的研究在学术界中成为了热门课题。随着信息技术的飞速发展,世界正在不断走向信息化,世界经济与市场也在不断朝着一体化发展,企业之间的竞争也日益加剧,导致我国诸多企业通过选择多元化经营的发展道路,来追求更长久的持续发展。尽管由专业化转向多元化发展的热潮接二连三被掀起,但是各家企业获得的最
近年来,伴随着互联网的进一步普及,网络经济迅猛发展。网络商品交易极大地改变了人们的生产生活方式,网络购物已成为一种重要的消费方式,网络交易额在零售消费总额中所占的比
随着工业的不断升级与发展,各种环境问题接踵而至,2019年臭氧污染已经成为了我国第二大大气环境问题,臭氧污染主要与其前体物氮氧化物与VOCs的排放相关,我国的臭氧污染主要是VOCs控制型,河北省石家庄市以制药、化工、包装印刷及制造为主,这种高VOCs污染的工业特点也导致了石家庄市的臭氧污染与VOCs排放高度相关,2018~2020年河北科技大学以三方团队模式负责石家庄市生态环境局挥发性有机物及臭氧
棉花作为新疆最主要的大田经济作物,对新疆的经济社会发展及农民收入等有重要影响,因此,快速、准确地获取棉花的种植面积及其空间分布对于调整和优化新疆棉花产业布局具有重要意义。目前对于棉花时空分布及驱动力分析的相关研究大多都采用统计数据,缺少空间性。而采用遥感手段进行棉花面积的提取,不仅可以大幅度减少成本,而且数据的准确性和客观性得以保证。本文选择新疆作为研究区,以Landsat 8、GF-1及Sent