序列模式挖掘的并行算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:ontheroad2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列模式挖掘是指从序列数据库中发现相对于时间或者其它顺序的高频率序列。其最初动机是想通过在带有交易时间属性的交易数据库中发现频繁项目序列以发现一个时间段内的客户购买行为规律。近年来序列模式挖掘已经成为数据挖掘的一个重要方向,其应用范围已不局限于交易数据库,在DNA分析等尖端科学研究领域、Web访问等新型应用数据源等众多方面都得到了针对性研究。文中结合R.Agrawal和R.Srikant提出的序列模式挖掘的有关定义和R.Wille提出的概念格理论,提出了频繁概念的定义;根据序列模式并行挖掘的需要提出了搜索空间划分理论,其中包括搜索空间、子搜索空间、等价子搜索空间和最大子搜索空间的定义。序列模式挖掘的数据有如下特点:数据量大,数据分布存储。已有的大部分序列模式挖掘算法没有综合考虑到数据的上述特点。本文针对序列模式挖掘数据的这些特点,结合并行理论,提出了一个分布式并行算法SPP(Sequential Pattern Parallel)。本算法遵循模式缩减的原则,利用分治策略实现并行操作,在每台处理器上运用搜索空间划分理论和频繁概念构造频繁项集,运用图深度优先搜索方法构造频繁序列。算法只需扫描数据库两遍,不需要生成候选序列,大大减少了数据库访问时间,提高了序列模式挖掘的效率。不过本文采用是静态负载平衡,还有待改进。基于自己设计的随机数据生成程序和不同的消息结构,本文在具体的并行环境中模拟了算法SPP,并在单机中实现了AprioriAll算法。实验证明,相比于AprioriAll,SPP算法具有良好的加速比和效率。
其他文献
随着半导体技术与微处理器体系结构的发展,处理器的性能不断提高。发展相对滞后的存储器使CPU和主存之间的速度差日益加大。Cache作为提高存储子系统性能的一种有效途径,使其成
相对于Internet传统的客户端/服务器模式来说,P2P是一种完全的分布式计算模型,它在系统的负载均衡性、健壮性、可扩展性及高性价比等方面具有无可比拟的优势,故成为分布式网络领
本文的工作就是针对大庆油田社会保险中心为实现IC卡医疗保险系统建设的IC卡子系统提供设计和实现。IC卡的主要特点就是具有良好的读写能力、强大的安全防范能力和较大的数据
入侵检测作为动态安全技术中的核心技术之一,能够实时地全面监控网络、主机和应用程序的运行状态,主动对计算机、网络系统中的入侵行为进行识别和响应,提供了对内部攻击、外
即将到来的3G大市场为用户引入了种类丰富的各种媒体业务,要想从这些业务中获利,运营商必须调整其基础设施以应对不断变化的市场需求。同时,丰富的业务也带来了全新的商业模式,例
本文对同一物体的装箱算法进行了研究。文章首先回顾了装箱问题的研究背景以及从前人研究中得到的某些启发策略。然后给出了一个同一物体装箱的启发策略,通过该策略去生成装箱
ARINC 429总线协议和1553B总线协议是航空电子系统中的两个重要的通信协议,是航空设备各系统间或系统与设备间数字信息传输的主要路径,在航空航天领域有着十分广泛的应用。本论
物体的运动估计是计算机视觉研究中的一个重要方向,它包括刚体和非刚体运动分析两大类。由于刚体运动的简单性,运动分析的早期研究大都基于刚性假设展开并形成了一套成熟的理论
网络安全中的入侵检侧是对威胁计算机系统资源和网络资源的恶意行为进行识别和响应的一测是对威胁计算机系统资源和网络资源的恶意行为进行识别和响应的一种技术。网络安全中
航空电子系统性能的提高将极大的促进飞机品质的改善,未来航空电子系统设备中对显示设备的要求将向更高的方向发展,支持实时的 3D 图形显示将是显示系统的基本功能。本论文以此