论文部分内容阅读
随着互联网的发展,数据安全和隐私保护的重要性越来越明显。信息的负表示是一种新的很有前景的数据安全和隐私保护方法。负调查就是在信息负表示思想的基础上提出的。这种调查方法能在收集数据的同时有效保护用户的隐私,特别适合用于敏感数据的收集。
负调查所收集到的是部分负类别信息。如何将收集到的负调查结果转化为正调查结果,对结果的可信度进行评估,负调查中类别数与可信度之间的关系等都是负调查中的重要问题,也是本文的的主要研究内容。具体而言,本文的工作主要包括以下几个方面。
(1)提出新的更加合理的由负调查结果估算正调查结果的方法。已有的由负调查结果估算正调查结果的方法并不完善,有可能计算得到包含负值的正调查结果。本文提出了两种新的由负调查结果估算正调查结果的算法:NStoPS-Ⅰ算法和NStoPS-Ⅱ算法。两种算法各有优缺点,NStoPS-Ⅰ算法可扩展性更强,不仅适用于普通负调查,还能用于高斯负调查等负类别被选概率服从任意分布的负调查。NStoPS-Ⅱ算法并不能直接用于负类别被选概率服从任意分布的负调查,但是计算效率更高。所提出的两种算法均不会得到包含负值的不合理的结果。通过模拟实验将本文中提出的两种算法和已有的方法进行了比较,发现所提出的两种算法所得结果一致,并且比已有方法更加接近原始正调查结果,更加准确合理。
(2)提出负调查结果的可信度计算方法。本文通过分析正调查结果给定时可能的负调查结果的分布,得到了给定负调查结果时正调查结果的分布规律,然后在此基础上给出了负调查结果的可信度计算方法。由于给定负调查结果时正调查结果的分布并不对称,本文提出了计算最小置信域的一个贪心算法。实验方面,本文通过模拟实验分析了不同分布和参加调查人数对负调查可信度的影响。此外,当参加调查人员愿意提供更多信息时,可采用多选负调查,本文也对多选负调查结果的可信度计算方法作了讨论。
(3)考虑到类别数是设计负调查时需要考虑的重要参数,本文从实验角度对类别数与负调查结果的可信度之间的关系进行了分析。模拟实验的结果表明,当类别数增加时,负调查结果的可信度并不是一定增加或一定降低。
负调查作为一种新的数据收集方法,并不直接收集用户的原始真实信息,特别适合用在敏感数据的收集上。如何根据收集到的负调查结果估算正调查结果,对结果的可信度进行评估,以及负调查类别数与可信度之间的关系,都属于负调查中的核心问题。为此,本文提出了更加完善合理的估算正类别分布的算法,对负调查结果可信度的进行了评估,并用模拟实验进行了分析和验证,对负调查的应用有重要的指导意义。