海量数据下基于层级树的频繁序列模式挖掘

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:chaosum
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
频繁序列模式的挖掘长久以来就被广泛地应用到各种实际场景中为商家或企业提供各种生产销售方面的决策支持。而随着科学技术的发展,数据获取和存储能力的不断加强,各种实际场景中需要进行频繁序列模式挖掘的数据也经历了爆炸式的增长并最终达到了海量。海量的数据能得到更多频繁序列信息,但传统频繁序列挖掘算法在对海量数据进行挖掘时,其效率已经远远不能满足实际场景中的效率需求。不仅如此,实际场景中的数据集中的各元素通常并不是扁平化的,其自身通常拥有若干的类别信息,所有元素的类别信息能够组合为层级树。传统的频繁序列挖掘算法只能针对数据集中存在的元素挖掘出只包含这些元素的频繁序列模式。借助层级树来进行频繁序列的挖掘,我们能够得到传统算法不能挖掘到的更具一般性的频繁序列。已有的基于层级树在海量数据下进行频繁序列挖掘的算法还有很大的挖掘效率提升空间。同时,在基于层级树进行频繁序列挖掘时,其挖掘结果存在冗余的问题,已有部分研究提到该问题,但它们都没有对冗余结果做精确的定义,也并没有给出解决方法。此外,在挖掘频繁序列模式的时候,特别是在基于层级树对海量数据进行挖掘时,其挖掘到的结果序列会极其多,而用户感兴趣的可能只是其中的一部分符合特定模式的序列。因此我们需要在挖掘时对结果序列给出若干形式的约束,如最大间隔约束、最大序列长度约束、正则表达式约束等。正则表达式约束能够使算法只挖掘出涉及特定内容的结果序列。但目前还没有将正则表达式约束结合到海量数据下基于层级树的分布式频繁序列挖掘算法中的研究。本文提出了框架RUMMAGE来解决上述问题。RUMMAGE分为预处理、Map、Reduce、Cleanup四个阶段。本文在Map阶段基于LASH的投影算法提出更高效的投影算法PUT;在Reduce阶段,首先基于PSM算法提出不含冗余操作的算法MINE,接着定义了适用于层级树的正则表达式RE-Hierarchy,并提出算法REC-MINE以接受正则表达式约束在海量数据下基于层级树进行频繁序列挖掘;最后,在Cleanup阶段提出了算法REI以高效解决挖掘结果冗余的问题,极大地减少了结果序列的数量。
其他文献
随着信息化社会的飞速发展,高性能计算已经成为继理论科学和实验科学之后科学研究的第三大支柱。从战略高度方面讲,高性能计算技术是一个国家综合国力的表现,在国防安全、高
随着互联网技术的不断发展,面对空前膨胀的海量数据,云计算得到了快速发展。在云计算中,MapReduce分布式计算框架已经成为目前流行的处理大数据的计算模型。为了保证MapReduc
狗牙根(Cynodon dactylon)属禾本科画眉草亚科(Eragrostoideae)虎尾草族(Chlorideae),是全球最重要、品种最丰富的暖季型草种之一,主要生长于温暖湿润的热带及亚热带地区,在我国主要分布在黄河流域以南各省。狗牙根是世界上分布最广的植物(世界记录编号:20130500226),我国是狗牙根资源丰富的国家,国土面积辽阔,经纬度跨度大,复杂的生境导致我国野生狗牙根产生了
遗传算法对于以往难以解决的函数优化问题,图像识别,机器学习,数据挖掘以及复杂的多目标规划等问题是最有效的方法之一。遗传算法的实质是在模拟自然界中生物遗传及进化的过
基于国家形象和框架理论,本研究考察了在俄罗斯流行的与中国相关的社交网站VK.com上中国的国家形象。本文采用定量的内容分析方法,对“Magazeta”,“Tales of Laowai”,“EKD
仿人机器人的步行控制问题一直是机器人研究领域的重点和难点。目前,关于仿人机器人步行控制的方法主要是基于机器人的动力学模型,其所规划出的步态与人类的自然步态相去甚远
在电子商务和社交工具快速发展的今天,社交网络的规模和多样性持续扩大,社交网络的研究正逐渐成为数据挖掘研究的热点。获取社交网络中的紧密群体,如社交网络中针对特定人群
一线城市房价追高的同时,二、三、四线城市囤积了大量存量房。政府为稳定房地产市场,提出了提高城镇化率、深化住房制度改革、加快农民工市民化、扩大有效需求、消化房地产库
云计算是一种具有面向服务特征的计算模式,不同资源都以服务的形式提供给用户。云服务用户关心的重点是服务性能是否满足所签订的SLA,而对于云服务提供者来说,考虑的是在满足
热核聚变反应堆液态金属包层中的导电金属在强磁场环境下流动,导电金属流动过程中切割磁感线产生感应电流,感应电流在磁场中产生洛伦兹力,从而引起磁流体动力学(Magnetohydro