序列模式挖掘算法中的分布式及隐私保护问题研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:luminfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊和随机的数据中提取隐含在其中的、人们事先不知道但又是潜在有用信息和知识的过程,序列模式挖掘是数据挖掘的一个重要分支,有着广泛的应用前景如信用卡反欺诈行为分析、网络访问模式分析、科学实验分析、自然灾害预测及DNA序列模式分析等。随着网络技术的发展和数据应用规模的不断扩大,传统的集中式数据库越来越不能满足应用的需要,分布式存储和计算逐渐成为一种主流的数据处理方式,如何在分布式环境下对海量序列数据进行有效挖掘成为近年来学术界的一个研究热点。分布式带给企业资源共享的同时,随之而来的隐私安全问题又成为了大众关注的焦点,因为人们都不乐意公司或机构掌握自己的隐私数据或知识,如何在保持隐私信息不被泄露的前提下针对分布式序列数据进行快速、有效地挖掘,也成为数据挖掘研究中一个很有意义的课题。   本文首先介绍了序列模式挖掘、分布式序列模式挖掘和隐私保护分布式序列模式挖掘各自概念、特点及研究现状,接着重点分析了序列模式挖掘SPAM算法流程、算法实现及各组成部分。   在分布式研究方面,在全局S-step的基础上补充了全局I-step过程及全局序列模式挖掘主算法,提出了基于SPAM的全局序列模式挖掘算法GSM;针对GSM集中式算法效率低下的缺点,设计和实现了基于SPAM的分布式改进算法FDSM,算法性能比较和实验评估证实FDSM与GSM相比具有更低的时间、空间和通信复杂度。   在隐私保护研究方面,首先分析了全局序列模式挖掘算法GSM潜在的隐私泄露问题,在安全全局S-step的基础上补充了安全全局I-step过程及安全全局序列模式挖掘主算法,提出了基于GSM的隐私保护全局序列模式挖掘算法PPGSM;又分析了分布式改进算法FDSM潜在的隐私泄露问题,设计和实现了基于FDSM的隐私保护分布式改进算法PPFDSM,算法比较显示PPFDSM在保持良好的正确性和安全性的同时,比PPGSM拥有更低的时间、空间和通信复杂度。
其他文献
税控系统是一种重要的局域网应用,应用在商业收款机系统上的税控系统,是用来实时地监控收款机的每一笔销售数据并进行税控处理(添加税控码到小票),然后汇总统计以达到以票控
近年来,全球范围内影响公共安全的灾难事故频频发生,给人们带来了难以承受的损失和伤害,比如最近发生的日本地震以及由此引发的海啸、核危机等。但同时也让人们开始反思如何更好
荔枝是南方特色水果,经济价值较高,在我国,荔枝的生产与加工已形成了一个产业。由于荔枝果实形态、颜色及生长环境的复杂性,实现自动化采摘非常困难,但是从长远看,自动化采摘具有很
我国的税务部门通过不断的信息化建设,各个不同平台的业务系统都积累了大量的税务管理数据。但是随着税务信息化的不断深化,税收数据的一般利用已经不能满足税收管理现代化的
无线传感器网络是一种应用了无线通信、传感器、网络、嵌入式等技术的新型数据采集处理网络系统,越来越受到世界各国的重视,不久的将来它的应用将会遍布所有领域。本论文所设
随着计算机和互联网技术的快速发展与广泛应用,计算机系统的安全受到严重的挑战,基于特征码检测法的计算机病毒检测技术,虽然能够有效地检测出已知各类病毒,但是对于新出现的
随着信息技术和互联网的飞速发展,互联网日益成为人们工作、学习和生活的一部分。而在网络使用过程中,由于用户具有各自的兴趣爱好和访问习惯,因此他们关注的内容也不完全相
传染病是由各种病原体引起且能在人与人、动物与动物或人与动物之间相互传播的一类疾病.有些传染病,政府部门必须及时掌握其发病情况,及时采取对策,防止该种传染病的流行. 
随着网络信息技术的发展与应用,需要进行身份识别的场合也越来越多,人们对于信息安全性的要求日益提高。人脸识别技术作为生物特征识别技术领域中重要的组成部分,与其它识别
随着XML在互联网和信息处理等领域的广泛应用,它已经成为当今数据交换和数据表示的事实标准。为了有效管理和快速查询海量的XML数据,进而改进XML数据库系统的性能,各种XML数