论文部分内容阅读
隐私数据发布是隐私保护数据挖掘的一个重要方向,但是时间序列的隐私发布问题还没有得到足够的重视。由于时间序列数据的高维特性和时序特性,传统的隐私数据发布方法往往造成数据质量严重下降。我们通过基于随机扰动的数据发布方式保护敏感时间序列的原始值。随机扰动通过向原始值添加随机噪声增加发布数据的不确定性,增加对原始值的推测难度。简单的高斯白噪声没有考虑属性空间中的类别分布,为每一条序列的每一维添加相同的噪声量,造成了发布数据对分类挖掘的有用性严重下降。本文提出了基于区域分析的数据扰动方法DRP,算法能有效保障原始值免于推测攻击,而且显著提高了发布数据的分类有用性。
我们在文中提出了隐私发布时间序列数据的完整框架,包括保障数据隐私和提高数据有用性,以及后续的防止噪声过滤。基于高斯随机扰动的发布方法保障了数据能以最大概率免于原始值推测攻击。我们通过分析属性空间中局部区域对分类模式的不同影响,发现和定义了一类对分类性能影响最大的不一致区域。我们的研究表明,通过减少不一致区域的噪声量保持噪声的分布和类别分布一致,可以有效保护区域中对分类有用的结构,显著提高发布数据的分类有用性。最后,DRP方法通过分析针对时间序列噪声的线性过滤方法,利用小波分解,使噪声分布符合序列在时间和频率域上的分布,从而不被过滤。并且我们通过推理和实验论证了,可压缩噪声方法能够保障发布数据的分类性能。