论文部分内容阅读
互联网技术的广泛应用促进了大规模数据的生成和共享,但由于数据源繁多,数据质量和可靠性无法得到保证。数据起源作为描述数据的元数据,可用于数据可信性验证、数据历史版本管理等。数据起源可能包含各种敏感信息,在公开或共享起源供第三方使用之前,必须隐藏其中的敏感信息以保证起源安全。起源过滤是一种通过改造起源图以解决起源安全问题的新兴技术。现有起源过滤研究尚未关注并解决间接依赖过滤问题,且欠缺支持起源安全和效用多目标权衡的数据起源过滤机制。为此,本课题阐述了间接依赖过滤的必要性,提出了一种基本的间接依赖过滤机制,并在此基础上进一步提出了基于多目标优化的数据起源过滤机制。本课题的主要研究内容包括以下三个方面:第一,针对敏感间接依赖,提出了一种基本的间接依赖过滤机制。首先,结合实例阐明过滤间接依赖的动机以及保持溯源效用的挑战,并形式地定义了起源间接依赖过滤问题;其次,扩展针对边的“删除+修复”过滤机制,提出了一种面向间接依赖的过滤方法。该方法采用最小代价决策法和贪婪算法设计删除策略,断开与间接依赖对应的所有连通路径,通过在被破坏的非敏感间接依赖端点之间引入非确定依赖关系,修复过滤视图的效用。最后,采用在线开放起源数据集开展模拟实验。实验结果表明,该方法能够在有效过滤敏感间接依赖的同时维持较高的溯源效用,比经典过滤机制ProvAbs的溯源效用提高30%左右。第二,针对基本的间接依赖过滤机制尚未解决的起源安全和效用权衡问题,形式地定义了基于多目标优化的数据起源过滤问题的目标和约束。首先,简要阐述起源过滤多目标要求;其次,提出一种面向间接依赖的起源安全评估模型,以量化起源安全;最后,分析起源安全和效用的相互作用机理,定义一种起源安全和效用多目标权衡函数,形式地定义基于多目标优化的数据起源过滤问题的目标和约束。第三,结合对起源安全和效用多目标权衡机理的研究,在基本的间接依赖过滤机制基础上,提出了一种基于多目标优化的数据起源过滤机制。该机制以“删除+匿名+修复”为指导思想构建过滤策略空间,求得基于多目标优化的数据起源过滤问题的局部最优解。首先,阐述多目标数据起源过滤的基本思想;其次,定义间接依赖过滤原语和过滤约束,从而定义间接依赖过滤策略;然后,依据“删除+匿名+修复”的思想构建“单路径”和“多路径”两种间接依赖过滤策略空间;最后,采用印第安纳大学的开源数据集开展模拟实验,结果表明,与基本的间接依赖过滤机制相比,该过滤机制能够有效过滤间接依赖,使过滤视图保持较好的安全性并提升溯源效用,使多目标权衡函数值达到87%以上。