数据发布中的个性化隐私匿名技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:yelangqishi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网、数据存储以及计算技术的飞速发展,使得信息的收集与分析变得越来越便捷、完整与精确。然而,这些以信息共享、数据挖掘与知识发现等为目的的数据发布过程往往都伴随着敏感隐私信息的泄露风险,这就引发了对数据发布过程中隐私保护问题的研究,其主要目标是如何在保证数据可用性的前提下,适当损失原始数据所包含的信息来提高发布数据的安全性,从而达到隐私保护与数据可用性之间的良好平衡。另外,考虑到不同数据实体对敏感信息保护程度的不同需求,隐私保护的个性化服务已成为该领域的一个研究热点。本文立足于隐私保护中的个性化服务需求,在保证信息强可用性的前提下,对数据发布中的个性化隐私匿名技术进行了多方面细致的研究。首先,针对不同个体对隐私保护的不同需求,在传统l-多样性的基础上,对敏感属性设置相应的保护属性,提出了一种扩展l-多样性匿名原则,并通过保护属性对敏感属性进行泛化约束来实现个体与敏感值之间关联关系的个性化保护需求,从而形式化地定义了一种面向个体的个性化扩展l-多样性隐私匿名模型。另外,根据l-多样性匿名要求发布等价类中敏感值足够多样化的原则,引入一种逆聚类的思想来实现对发布数据集的等价划分;并在此基础上,研究设计了一种基于逆聚类的个性化隐私匿名算法来实现面向个体的个性化扩展l-多样性隐私匿名模型,并从理论上分析了该算法的正确性和复杂性,最后通过两组不同的仿真实验表明:与传统基于聚类的l-多样性算法相比,基于逆聚类的个性化隐私匿名算法不仅能产生近似的信息损失量以及更小的时间代价,满足扩展l-多样性的匿名要求,而且实现了个性化服务的需求,获得了更有效的隐私保护。其次,针对面向个体的个性化服务在海量数据情形下存在个性化参数设置难的局限性,对面向敏感值的个性化隐私匿名问题进行了研究。在传统(α, k)-匿名原则的研究基础上,引入个性隐私敏感因子,进而计算各敏感值的个性隐私保护需求度,从而实现敏感值的个性化服务,并形式化地定义了一种面向敏感值的个性化(α, k)-匿名模型。另外,针对传统泛化处理过程中各等价类区间边界位置不够准确的缺陷,设计了一种以准标识符属性信息熵为分类准则的属性熵分类算法;并在此基础上,研究设计了一种基于熵分类的个性化隐私匿名算法来实现面向敏感值的个性化(α, k)-匿名模型,并从理论上分析了算法的正确性和复杂性,最后通过两组不同的仿真实验表明:与经典的C4.5、Naive-Bayes、NBTree以及k-nearest neighbor(k=3)等分类算法相比,基于属性熵的分类算法具有更高的分类精度;同时,与传统的(α, k)-匿名方法相比,基于熵分类的个性化隐私匿名方法不仅满足了敏感值的个性化服务,而且能更有效合理地减少数据集的信息损失度。再次,针对将单敏感属性数据集的隐私匿名原则直接应用于多敏感属性数据集上不能保证隐私信息安全性的问题,在考虑敏感值个性化服务需求的基础上,对一类面向多敏感属性的敏感值个性化隐私匿名方法进行了研究。在传统l-多样性原则的研究基础上,引入拓扑空间中的覆盖思想,重新定义了多敏感属性l-多样性原则,并从理论上证明了该定义的正确性和安全性;另外,引入一种基于值域等级划分的个性化定制方案来实现不同敏感值的个性化服务需求,并在此基础上,形式化地定义了一种多敏感属性个性化l-多样性模型。同时,研究设计了一种基于最小选择度优先的个性化隐私匿名算法(MSFMPL-diversity)来实现该多敏感属性个性化l-多样性模型,并从理论上验证了算法的收敛性和局部最优性。最后通过仿真实验表明:在同等条件下,MSFMPL-diversity算法在满足敏感值个性化服务需求的前提下,不仅能产生与MBF算法和MMDCF算法相当的信息隐匿率,而且具有更好的时间性能和鲁棒性。最后,针对同时包含外部更新和内部更新的完全动态数据集的重发布隐私保护问题,对一类具有敏感属性值个性化更新的完全动态数据集重发布隐私匿名方法进行了研究。在完全动态数据集重发布披露风险理论的基础上,引入属性值的个性化转移概率来实现敏感属性更新的个性化服务,并在此基础上,对个性化重发布的披露风险进行了评估;同时,在m-unique原则基础上,提出了一种面向动态数据集重发布的个性化λ-continuity隐私匿名原则;最后,研究设计了一种面向动态数据集重发布的增量型个性化λ-continuity隐私匿名算法(λ-PCRAADD)来实现个性化λ-continuity隐私匿名,并从理论上分析了算法的正确性和复杂性。通过仿真实验表明:在同等条件下,λ-PCRAADD算法在满足敏感属性值个性化更新服务需求的前提下,不仅能产生远小于传统m-invariance算法的聚集查询平均相对错误率,而且具有相当的时间性能和更好的鲁棒性。
其他文献
我们不要试图想一劳永逸的对宪法的涵义给予准确的界定,也不要试图去证明谁的宪法概念才是正确的,面对宪法形式和内容的多样性,目前,我们不妨也令宪法概念以多样性的方式存在
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
巍山县彝族地区生态状况较好,这与彝族积淀深厚的生态文化有密切的关系。彝族生态文化主要表现在物质、宗教、制度三个层面,表现出人与自然和谐相处的理念。应该大力弘扬彝族
在建筑施工企业项目管理中,工程统计是重要组成内容,工程项目施工进度、材料耗损、施工产值效益通过统计工作都能集中反映到领导管理层。建筑施工企业统计工作就是通过最科学
随着我国社会经济的发展进步,尤其是我国信息技术的发展,促使人们生活环境发生较大变化,并在发展的过程中逐渐出现一种新的商务模式,即电子商务。电子商务在发展过程中逐渐完
经济新闻主要是报道新近发生的具有新闻价值的经济活动或经济工作事实,关注的是生产、流通、分配、消费等经济活动。在受众的感觉里,经济新闻报道专业性强,有的在读者眼里竟
课堂提问和讨论、实验、作业等一样,是促使学生思考、理解教学内容的有效手段,然而课堂提问又具有其独特的作用,对获取教学成效有重要意义。随着教育的发展,可以说,课堂提问
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
由于全球腹腔镜胆囊切除术应用增加,腹腔镜胆道损伤发生率最近有上升趋势。为降低术中胆管损伤的风险,在结扎和横断前保持术野清晰可视、辨清解剖结构至关重要。发生胆道损伤
“红箭”是我国北方工业总公司研制生产的系列反坦克导弹。自70年代始,先后诞生了“红箭73”、“红箭8”等型号。“红箭”反坦克导弹在研制过程中不断吸取国外各型反坦克导