分布式序列模式挖掘算法研究

来源 :扬州大学 | 被引量 : 0次 | 上传用户:sdadlu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前信息主导的时代,海量数据存储在数据库或者数据仓库中。面对这种“信息爆炸”的现实,如何从海量数据中提取有价值的信息已显得尤为重要。数据挖掘技术的出现和发展为人们解决了这一难题。所谓数据挖掘技术是利用各种分析工具从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取潜在有用的信息和知识的过程。 在本文中,我们对序列模式挖掘技术做了深入研究。序列模式挖掘是数据挖掘研究的一个重要课题,挖掘基于时间或者其他顺序出现频率高的模式,是对关联规则挖掘的进一步推广,但克服了关联规则中不能反映事件在时间顺序上的前后相关性。序列模式挖掘技术已在顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA序列模式的分析等方面广泛应用。 在研究现有的单机和分布式序列模式挖掘算法的基础上,本文围绕着单机下基于位图序列模式挖掘、分布式序列模式挖掘以及分布式多维序列模式的近似挖掘等几方面做了深入研究,主要创新点如下: 1)基于传统序列模式挖掘方法不能有效地解决候选序列费时难题,本文提出一种基于位图的序列模式挖掘方法SMBR(sequential patterns mining based on bitmap representation)。SMBR算法采用一种简化的位图表示结构表示数据库的方法。该方法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列,有效地获得序列模式。 2)由于分布式环境下挖掘全局序列模式常常产生过多候选序列,加大了网络通信代价。为此提出一种基于分布式环境下的挖掘全局序列模式算法-FMGSP(fast mining of global sequential pattern)。FMGSP算法将各站点得到的局部序列模式压缩到一种语法序列树上,避免了重复的序列前缀传输;基于合并树中结点序列规则、简单的特点,提出一种I/S-E(Item Extension and Sequence Extension)剪枝策略,有效地约减了候选序列,减少了网络传输量,从而快速生成全局序列模式。 3)提出一种多维序列模式近似挖掘算法AMSP(Approximate Mining of Global Multidimensional Sequential Patterns),以解决分布式环境中大型数据库中多维序列模式挖掘问题。该方法不同于传统的分布式多维序列模式挖掘方法,具备较好的伸缩性。首先将维度信息嵌入相应序列中,使多维序列模式挖掘转化为序列模式挖掘;然后在各分站点对转换后序列聚类、概化和分析,采用有效的近似挖掘方法获得局部模式;最后集中所有局部模式,通过高频度序列模式模型挖掘全局多维序列模式,有效地解决通信代价大、维度高等难题。
其他文献
本文讨论具有比较严格的服务质量要求的实时应用程序存在的计算机网络带宽分配问题。由于实时应用的效用函数一般不满足严格凹的性质,因此传统的公平性定义和带宽分配算法对
微粒群算法(PSO, Particle Swarm Optimization)是一种新近出现的启发式全局优化算法,由于算法的易实现性和高效性,因此受到了人们的广泛关注。它已成为与遗传算法、禁忌搜索
近年来,随着生物技术的飞速发展,一个新的研究领域——DNA计算随之产生。DNA计算是一种新的计算模式,它以DNA(deoxyribonucleicacid,脱氧核糖核酸)为“原料”,以生化实验为工
带式输送机是一种以胶带、化纤带、钢带、塑料带和钢纤维带作为牵引工件和传送物料的输送机械。它不仅可以传送散碎状的物料如沙子、煤炭等,还可以传送成件成箱的块状物料如成
连续优化问题普遍存在于数学,计算机科学,金融学,工程等研究领域和应用实践中。一般的,一个最优化问题指的是,对于一个目标函数f(x),在其可行域中找到其关于x的最小值或最大
聚类分析作为数据挖掘领域中的一个重要分支,研究数据对象的分类问题,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。DBSCAN算法因为可以发现
服务质量QoS(Quality of Service)指网络在传输端到端数据时必须满足的一套可测量的预先定义的基于端到端性能的服务属性。随着移动自主网络(Ad Hoc)的迅速发展,越来越多的应
P2P是英文Peer-Tro-Peer的缩写,即对等网络或对等计算。在P2P网络中,所有节点拥有相同的地位,它们之间没有服务器与客户机之分。随着P2P应用的迅速发展,P2P网络的安全性问题越来
参数的配对组合测试要求系统中每一对输入参数,它们每一个有效值的组合都必须被至少一个测试案例覆盖。实践表明,参数的配对组合测试是对于各种系统的一种实用且有效的测试方