直方图应用中的新型数据管理技术研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:com_wang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
直方图由20世纪统计学的伟大奠基人Karl Pearson提出,经过多年的发展,现已成为估计统计对象分布特性的一个重要数学工具。直方图在信息科学的众多领域都得到了广泛应用,其中包括统计数据发布、概率数据建模和多媒体数据特征抽取和表征等。然而在这些实际应用中,使用直方图对数据建模仍面临一些挑战性问题,表现在以下几个方面:首先,近期研究发现直接发布敏感数据集的直方图仍有可能泄露用户隐私;其次,现有的直方图相似性搜索技术仅使用简单的距离函数(例如Lp范式距离)来量化直方图之间的相似性,容易造成搜索结果与人们的直观预期不匹配。为了解决这些问题,本文对直方图应用中的新型数据管理技术进行研究,对于直方图应用的进一步发展具有重要的理论意义和实用价值。本文以直方图的典型应用场景为出发点,从直方图的构造、直方图的索引存储和直方图的相似性搜索这三个方面展开研究。在直方图的构造方面,信息安全领域的研究人员发现在敏感数据集上直接构造出的数据统计直方图有可能泄露用户的隐私。由于对攻击者的背景知识和攻击手段没有严格的假设,差分隐私(Differential Privacy)作为一种新型的隐私保护模型受到了广泛关注,因此构造高可用性的差分隐私直方图是当下数据安全领域的研究热点。本文设计了新型的差分隐私直方图的构造方法,在保证直方图不会泄露用户敏感信息的前提下尽可能提高直方图的数据可用性。在直方图的索引存储和相似性搜索方面,计算机视觉领域的研究发现基于EMD距离(Earth Mover’s Distance)对直方图进行相似性搜索能够返回与人们预期的搜索结果相一致的搜索结果。然而求解EMD距离的函数却具有三次方的高时间复杂度。本文设计了面向EMD距离的高效索引存储结构,并在此基础上分别提出了数据库环境下和数据流环境下基于EMD距离的直方图相似性搜索算法。本文提出的算法都极大提高了基于EMD距离的相似性搜索的处理效率。本文的主要研究内容和创新点包括:第一,提出了基于均值的差分隐私直方图构造方法,包括Mean-NoiseFirst方法和Mean-StructureFirst方法。利用V-Optimal直方图构造技术将原始频数序列上位置邻近取值相似的频数合并到一个数据桶。由于使用均值统计量作为数据桶内各个频数的代表频数,可以有效平滑或降低为了满足差分隐私模型限制而向数据桶内各个频数上添加的噪音。使用真实数据集进行实验评估证明:Mean-NoiseFirst方法和Mean-StructureFirst方法构造的差分隐私直方图比之前最好的方法构造的差分隐私直方图在数据精度上有显著提高。第二,提出了基于中位数的差分隐私直方图构造方法,包括Median-NoiseFirst方法和Median-StructureFirst方法。由于使用中位数统计量作为数据桶内各个频数的代表频数,有效避免了数据桶内添加的极端值噪音对数据桶代表频数的影响。实验证实,基于中位数的Median-StructureFirst方法不但显著优于基于均值的Mean-StructureFirst方法,更比之前最好的Boost方法和Privelet方法所构造直方图的数据质量平均提高了1倍。当隐私保护需求较高时,基于中位数的Median-NoiseFirst方法显著优于基于均值的Mean-NoiseFirst方法。而在隐私保护需求较低时,Mean-NoiseFirst方法则更有优势。特别地,Median-NoiseFirst方法构造的差分隐私直方图在应答单位范围计数查询时的结果精度比之前最好的Dwork方法的结果精度最多提高了5倍。第三,提出了面向EMD距离的直方图高效索引和存储策略。利用线性规划中的对偶理论将直方图映射至一维实数空间,继而采用经典的B+树结构索引一维映射空间内的各个映射点。为了使索引结构高效支持基于EMD距离的相似性搜索,搭建了直方图在B+树上的键值和直方图之间的EMD距离的联系,为基于索引的数据剪枝提供了基本思路。与先前提出的索引结构不同,基于该索引结构进行剪枝过滤能够保证查询结果的完备性,即不会错误过滤掉任一查询结果对象。第四,以面向EMD距离的直方图索引和存储策略为基础,提出了数据库环境下基于EMD距离的直方图相似性搜索算法,包括范围查询算法和k-近邻查询算法。在处理范围查询时,将对直方图记录集的范围查询转变为对B十树索引键值空间的子范围查询,成功过滤掉了大量无关记录。在处理k-近邻查询时,根据当前的查询结果自动调整B+树上的搜索范围,成功约简了k-近邻查询的搜索空间。基于真实数据集进行大量实验评估证实了本文提出的基于EMD距离的相似性搜索技术的查询处理性能比先前最好方法的查询处理性能平均提高了1倍。第五,提出了数据流环境下基于EMD距离的直方图连续相似性搜索技术。利用EMD距离的对偶线性规划问题的可行解高效过滤数据流上的无关直方图记录。同时结合数据流的特性,设计了可行解动态更新策略和多查询共享策略,进一步提高系统的查询处理效率。以本文提出的基于EMD距离的连续相似性搜索技术为基础,开发了在线视频流盗版视频帧实时检测系统。由于使用了一系列针对数据流环境的查询优化策略,演示系统在同时处理80个连续查询时,仍能保证40帧/秒的实时处理效率。由于使用了EMD距离度量直方图之间的相似度,演示系统对经各种方式篡改后的盗版视频帧具有很强的识别性。总之,本文研究了差分隐私直方图构造问题,面向EMD距离的直方图索引存储问题以及基于EMD距离的直方图相似性搜索问题,并提出了有效的解决方案。理论分析和实验结果都表明,本文提出的方法较之前最好方法有显著提高。
其他文献
目的基于磁共振成像(MRI)指标建立乳腺病灶性质的Fisher判别函数,为MRI诊断乳腺病灶性质提供理论依据。方法对临床触诊乳腺肿块、可疑乳腺肿块,或超声检查、钼靶照相发现病灶
小汤山镇位于北京市昌平县境内,距天安门25公里,是北京城区北中轴延长线上的重镇之一。镇域总面积37.1平方公里,城镇规划区面积10平方公里,下辖10个行政村,一个居委会。全镇总人口2万,其
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的分析肠道外嗜水气单胞菌的感染情况、相关因素及其耐药性,为临床防治嗜水气单胞菌感染提供依据。方法回顾性分析2009年1月-2016年12月112例患者肠道外分离的嗜水气单胞菌
随着《侵权责任法》的出台,医疗侵权损害赔偿责任在法律上有了新的规定,明确了在医疗纠纷中适用过错责任及附条件的推定过错原则。本文对《侵权责任法》相关规定的理解及在适
长久以来,长着奇特外表、神秘而又充满传奇色彩的海马一直激发着人们的想象力.在古希腊传说中,海马是波塞冬王的车夫,而在中国,海马被看作是爱的符号.它们高昂着骏马一般雄赳
序列模式挖掘就是从给定序列数据库中发现频繁的子序列作为模式。它是数据挖掘领域的重要分支,具有广泛的应用场景,例如序列分类和预测,识别Web日志中的访问模式,生物序列分