论文部分内容阅读
随着物联网的兴起,各种智能设备与系统(如智能手机、智能手环、GPS等)在现实生活中随处可见,促使数据呈爆炸式的增长。由各类多源数据汇聚而成的大数据则成为一种战略资产,具有难以估量的潜在价值。伴随着大数据技术的成熟,数据对推进智慧医疗、智能交通以及个性化服务等领域的发展尤为重要。为了打破数据孤岛壁垒并充分发挥数据价值,可对收集的数据进行公开发布,以实现数据共享,也可将数据用于模型学习,优化算法性能。然而,这些被收集的数据中通常包含大量的个人敏感信息,例如薪资、疾病记录以及位置信息等。如果这些数据未经安全处理就进行发布或者使用,将造成严重的隐私泄露问题,进而导致用户个人财产、人身安全等受到严重威胁与伤害。为此,针对用户数据的隐私保护研究至关重要,符合人们及国家在数据安全上的需求,对推动数字经济发展与应用具有重大意义。实时数据记录着用户的时序信息,能更详尽地描述用户行为,已广泛应用于人工智能、数字经济、民生服务等领域。基于实时数据的分析与学习能提供更个性化的服务,并及时响应环境变化。然而,实时数据发布中存在数据重复发布、数据动态更新等情况,增加了隐私泄露风险与隐私保护难度。基于此,本论文研究了面向实时数据的隐私保护关键技术,主要研究工作包括:关系型实时数据的隐私保护、时空型实时数据的隐私保护以及分布式学习环境下实时数据的隐私保护。本论文的主要研究成果可概括如下:(1)关系型实时数据的隐私保护算法研究。针对关系型实时数据发布中存在的隐私泄露问题,提出了一种基于m-签名与模糊处理的匿名隐私保护算法(PMF)。在PMF算法中,引入了m-签名概念,确保每个桶至少有m个不同的敏感属性值,且不产生任何伪造的元组,以此抵抗差异攻击,并提高发布数据的实用性。此外,满足m-签名的桶可随时间变化,m-签名的灵活性提高了PMF完成插入、删除与修改等更新操作的效率。同时,PFM算法中采用了模糊处理技术来处理候选列表中的元组,并使用贪婪启发式算法进行实时数据更新操作,解决了发布数据效用性与隐私安全之间的平衡难题。最后,对PMF进行安全性分析,并基于成人人口普查数据集与常见疾病数据集进行了实验仿真,实验与分析结果论证了PMF在实时数据发布中的数据高实用性以及强隐私保护;(2)时空型实时数据的隐私保护方案研究。研究了在具有时空特性的实时交通流数据发布中如何保证用户的隐私安全与数据效用等关键问题,提出了一种基于空间相关性的差分隐私保护方案(DP-SCR)。该方案提供了w-事件ε-差分隐私的隐私保护,并基于空间相关性实现了对交通流的精准预测。随后,在DP-SCR方案中,利用基于空间关联预测的交通流来完成采样操作,以实现对隐私预算的自适应分配。在满足用户隐私需求的情况下,可有效减少差分隐私引入的噪声,提高数据的可用性。同时,采用一种基于二分k-均值的动态聚类方法,以减少由数值较小的交通流导致的高扰动误差。此外,基于相关性与安全性的分析表明交通流在空间特征上的相关性更为显著,有利于模型预测准确性提升,并且DP-SCR可满足较强隐私保护。最后,基于车辆流动数据集进行了实验仿真,实验结果进一步论证了所提出的DP-SCR方案在数据效用方面优于相关的现有方案;(3)分布式学习环境下实时数据的隐私保护算法研究。针对联邦学习中的实时数据隐私保护以及模型性能优化等关键问题,提出了一种基于宽度学习的联邦连续学习算法(FCL-BL)。在FCL-BL中,设计了本地独立训练方案以及批异步处理方法,以实现高效、准确的模型训练。此外,还提出了一种加权处理策略,以解决联邦连续学习中存在的灾难性遗忘问题。最后,通过理论分析以及基于MNIST、NORB、FASHION及SIGNAL四类数据库的实验进一步表明,FCL-BL在处理基于实时数据的分布式学习中可充分保障用户的隐私安全,并显著提高了模型训练效率及预测准确度。