论文部分内容阅读
在网络信息技术快速发展的今天,人们在享受着发布和获取信息、数据的便捷和高效同时,也在承受着随之而来的隐私泄露的风险。隐私保护的常用手段是对有可能被探密者利用的数据进行不确定性变换,以减少隐私泄露的风险。k-匿名隐私保护模型是数据发布者常用的隐私保护模型,满足k-匿名要求的不确定性数据在互联网上越来越多。
在k-匿名隐私保护模型中,每条元组不仅包括精确数据,还包括泛化数据,因此k-匿名数据是一种不确定数据。但k-匿名数据又是一种特殊的不确定性数据,它是人为泛化后的不确定性数据,泛化后的每个实例还原成泛化前元组的概率是相等的。
经典的数据库模型和管理系统都没有考虑数据的不确定性,如何管理和查询源于k-匿名隐私保护模型的不确定性数据是一个亟待解决的问题。
首先,基于可能世界模型,根据k-匿名数据的特点,提出了一种新的描述k-匿名数据的不确定性数据模型kpro-table,该模型具有良好的可读性与描述能力,并证明了其完备的;其次,分析了k-匿名数据的查询语义,形式化的给出了k-匿名数据的成员(Membership)问题、可能性(Possibility)问题、确定性(Certainty)问题、包含(Containment)问题等查询问题的定义;再次,从计算理论的角度,通过多项式时间归约的方法,分别证明了Membership问题是PTIME,q-Membership问题是NP-完全的,q-Containment问题是NP-完全的,q-Containment问题coNP-完全的,Possibility问题是PTIME,q-Possibility问题是NP-完全的。这些结论为k-匿名隐私保护模型中不确定性数据查询方法的研究奠定了理论基础。