海量数据下基于层级树的频繁序列模式挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：chaosum

【摘要】

：

频繁序列模式的挖掘长久以来就被广泛地应用到各种实际场景中为商家或企业提供各种生产销售方面的决策支持。而随着科学技术的发展,数据获取和存储能力的不断加强,各种实际场

【作者】

：

张皓

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

序列模式分布式层级树冗余结果消除正则表达式约束

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

频繁序列模式的挖掘长久以来就被广泛地应用到各种实际场景中为商家或企业提供各种生产销售方面的决策支持。而随着科学技术的发展,数据获取和存储能力的不断加强,各种实际场景中需要进行频繁序列模式挖掘的数据也经历了爆炸式的增长并最终达到了海量。海量的数据能得到更多频繁序列信息,但传统频繁序列挖掘算法在对海量数据进行挖掘时,其效率已经远远不能满足实际场景中的效率需求。不仅如此,实际场景中的数据集中的各元素通常并不是扁平化的,其自身通常拥有若干的类别信息,所有元素的类别信息能够组合为层级树。传统的频繁序列挖掘算法只能针对数据集中存在的元素挖掘出只包含这些元素的频繁序列模式。借助层级树来进行频繁序列的挖掘,我们能够得到传统算法不能挖掘到的更具一般性的频繁序列。已有的基于层级树在海量数据下进行频繁序列挖掘的算法还有很大的挖掘效率提升空间。同时,在基于层级树进行频繁序列挖掘时,其挖掘结果存在冗余的问题,已有部分研究提到该问题,但它们都没有对冗余结果做精确的定义,也并没有给出解决方法。此外,在挖掘频繁序列模式的时候,特别是在基于层级树对海量数据进行挖掘时,其挖掘到的结果序列会极其多,而用户感兴趣的可能只是其中的一部分符合特定模式的序列。因此我们需要在挖掘时对结果序列给出若干形式的约束,如最大间隔约束、最大序列长度约束、正则表达式约束等。正则表达式约束能够使算法只挖掘出涉及特定内容的结果序列。但目前还没有将正则表达式约束结合到海量数据下基于层级树的分布式频繁序列挖掘算法中的研究。本文提出了框架RUMMAGE来解决上述问题。RUMMAGE分为预处理、Map、Reduce、Cleanup四个阶段。本文在Map阶段基于LASH的投影算法提出更高效的投影算法PUT;在Reduce阶段,首先基于PSM算法提出不含冗余操作的算法MINE,接着定义了适用于层级树的正则表达式RE-Hierarchy,并提出算法REC-MINE以接受正则表达式约束在海量数据下基于层级树进行频繁序列挖掘;最后,在Cleanup阶段提出了算法REI以高效解决挖掘结果冗余的问题,极大地减少了结果序列的数量。

其他文献

广义超立方体的条件连通度及容错路由研究

随着信息化社会的飞速发展,高性能计算已经成为继理论科学和实验科学之后科学研究的第三大支柱。从战略高度方面讲,高性能计算技术是一个国家综合国力的表现,在国防安全、高

学位

高性能计算互连网络广义超立方体限制连通度额外连通度容错路由算法

云计算环境中细粒度的MapReduce作业资源分配方法的研究

随着互联网技术的不断发展,面对空前膨胀的海量数据,云计算得到了快速发展。在云计算中,MapReduce分布式计算框架已经成为目前流行的处理大数据的计算模型。为了保证MapReduc

学位

云计算资源管理初始分配动态重分配

不同经纬度地区野生狗牙根种质资源评价

狗牙根(Cynodon dactylon)属禾本科画眉草亚科(Eragrostoideae)虎尾草族(Chlorideae),是全球最重要、品种最丰富的暖季型草种之一,主要生长于温暖湿润的热带及亚热带地区,在我国主要分布在黄河流域以南各省。狗牙根是世界上分布最广的植物(世界记录编号:20130500226),我国是狗牙根资源丰富的国家,国土面积辽阔,经纬度跨度大,复杂的生境导致我国野生狗牙根产生了

学位

狗牙根形态变异叶绿素荧光生态种质资源

基于遗传算法的太阳磁亮点识别和聚类算法的研究

遗传算法对于以往难以解决的函数优化问题,图像识别,机器学习,数据挖掘以及复杂的多目标规划等问题是最有效的方法之一。遗传算法的实质是在模拟自然界中生物遗传及进化的过

学位

太阳磁亮点遗传算法K-means聚类算法

俄罗斯社交网络上的中国形象

基于国家形象和框架理论,本研究考察了在俄罗斯流行的与中国相关的社交网站VK.com上中国的国家形象。本文采用定量的内容分析方法,对“Magazeta”,“Tales of Laowai”,“EKD

学位

国家形象在俄罗斯的中国形象媒体框架内容分析社交媒体Vkontakte社交网络

基于CPG的仿人机器人步行控制研究

仿人机器人的步行控制问题一直是机器人研究领域的重点和难点。目前,关于仿人机器人步行控制的方法主要是基于机器人的动力学模型,其所规划出的步态与人类的自然步态相去甚远

学位

仿人机器人CPG步行控制遗传算法姿态反馈

社交网络中紧密子图发现与信息推荐算法研究

在电子商务和社交工具快速发展的今天,社交网络的规模和多样性持续扩大,社交网络的研究正逐渐成为数据挖掘研究的热点。获取社交网络中的紧密群体,如社交网络中针对特定人群

学位

社交网络影响力相似度加权图紧密子图

重庆地区进城人口购房驱动机制研究

一线城市房价追高的同时,二、三、四线城市囤积了大量存量房。政府为稳定房地产市场,提出了提高城镇化率、深化住房制度改革、加快农民工市民化、扩大有效需求、消化房地产库

学位

农地三权抵押贷款进城人口购房需求去库存

基于FA-ELM和CRF的云环境下组件服务响应时间预测方法

云计算是一种具有面向服务特征的计算模式,不同资源都以服务的形式提供给用户。云服务用户关心的重点是服务性能是否满足所签订的SLA,而对于云服务提供者来说,考虑的是在满足

学位

组件服务响应时间预测条件随机场极限学习机烟花算法

磁流体自然对流传热数值模拟研究

热核聚变反应堆液态金属包层中的导电金属在强磁场环境下流动,导电金属流动过程中切割磁感线产生感应电流,感应电流在磁场中产生洛伦兹力,从而引起磁流体动力学(Magnetohydro

学位

液态金属包层磁流体动力学OpenFOAM自然对流数值模拟

海量数据下基于层级树的频繁序列模式挖掘

与本文相关的学术论文