论文部分内容阅读
数据挖掘是从大量的、不完全的、有噪声的、模糊和随机的数据中提取隐含在其中的、人们事先不知道但又是潜在有用信息和知识的过程,序列模式挖掘是数据挖掘的一个重要分支,有着广泛的应用前景如信用卡反欺诈行为分析、网络访问模式分析、科学实验分析、自然灾害预测及DNA序列模式分析等。随着网络技术的发展和数据应用规模的不断扩大,传统的集中式数据库越来越不能满足应用的需要,分布式存储和计算逐渐成为一种主流的数据处理方式,如何在分布式环境下对海量序列数据进行有效挖掘成为近年来学术界的一个研究热点。分布式带给企业资源共享的同时,随之而来的隐私安全问题又成为了大众关注的焦点,因为人们都不乐意公司或机构掌握自己的隐私数据或知识,如何在保持隐私信息不被泄露的前提下针对分布式序列数据进行快速、有效地挖掘,也成为数据挖掘研究中一个很有意义的课题。
本文首先介绍了序列模式挖掘、分布式序列模式挖掘和隐私保护分布式序列模式挖掘各自概念、特点及研究现状,接着重点分析了序列模式挖掘SPAM算法流程、算法实现及各组成部分。
在分布式研究方面,在全局S-step的基础上补充了全局I-step过程及全局序列模式挖掘主算法,提出了基于SPAM的全局序列模式挖掘算法GSM;针对GSM集中式算法效率低下的缺点,设计和实现了基于SPAM的分布式改进算法FDSM,算法性能比较和实验评估证实FDSM与GSM相比具有更低的时间、空间和通信复杂度。
在隐私保护研究方面,首先分析了全局序列模式挖掘算法GSM潜在的隐私泄露问题,在安全全局S-step的基础上补充了安全全局I-step过程及安全全局序列模式挖掘主算法,提出了基于GSM的隐私保护全局序列模式挖掘算法PPGSM;又分析了分布式改进算法FDSM潜在的隐私泄露问题,设计和实现了基于FDSM的隐私保护分布式改进算法PPFDSM,算法比较显示PPFDSM在保持良好的正确性和安全性的同时,比PPGSM拥有更低的时间、空间和通信复杂度。