PipelineJoin:一种新的基于MapReduce的多表连接算法

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户：qq81205690

【摘要】

：

　　MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作。现有的基于MapReduce的多表连接算法,在处理链式连接时,或者不能处理多个大表的

【作者】

：

ZiyuLin;YuqianLi;CanLi;YongxuanLai;

【机构】

：

厦门大学

【出处】

：

第三届CCF大数据学术会议

【发表日期】

：

2015年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作。现有的基于MapReduce的多表连接算法,在处理链式连接时,或者不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低。提出了一个基于MapReduce的多表连接算法——Pipeline Join,可以高效地实现任意多个大表的链式连接。 PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服已有链式多表连接算法的缺陷。在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间。

其他文献

C<,4>烃类催化裂解行为及动力学研究

该文在改造的重油微反实验装置上,分别以含异丁烷为主和含C烯烃为主的C烃类混合物为原料使和CPP催化裂解催化剂考察了C烃类的催化裂解情况,并对其反应动力学规律进行了分析.

学位

催化裂解热裂解异丁烷C烃类混合物乙烯丙烯动力学

NP类问题的交互计算方法

　　通过大数据的引入，可以降低问题解决难度。本报告探讨对于NP类问题，是否可以借助大数据寻求新的解题思路。对于NP问题的算法可获取性，算法精度，算法复杂度，以及需要数据的数量

会议

问题解决交互算法复杂度大数据算法精度可获取性解题思路讨论关系

绵羊和绒山羊PDIA3的cDNA克隆、在睾丸组织中的表达及其与IZUMO1之间相互结合的研究

哺乳动物精卵融合是一个精卵表面众多分子参与的复杂过程。基因敲除实验证明位于精子表面的具有二硫键的免疫球蛋白超家族成员IZUMO1是精卵融合的必须因子。体外抑制剂和抗体

学位

绵羊绒山羊蛋白二硫键异构酶IZUMO1基因

大数据并行与交互式计算

　　在计算理论中,计算复杂类主要研究P类与NP类两大类问题。在大数据的情况下,为了提高P类问题的求解速度,可采用并行方法,其中一个实例就是NC类并行计算；为了改进NP类问题的

会议

数据并行交互式计算复杂性问题求解速度非确定性大数据总体框架

一个基于度量空间的大数据并行计算框架

　　高性能计算已经成为解决许多大数据问题的必需技术手段，而目前的大数据处理主要都围绕大数据的volume和velocity这两个挑战，对于variety挑战的研究相对较少。我们提出一个

会议

度量空间数据并行大数据子问题velocityvariety高性能计算数据问题

中职机械基础课教学改革初探

机械基础既有很强的理论性,又有很强的实践性。要学好这门课程,学生应既有一定的形象思维能力,又有较强的记忆能力。实践表明,从简单机械入手,结合教学用模型和生活中的实际

期刊

机械基础教学改革实践

TStream一种可调节的数据流处理系统

　　在以Twitter数据分析为代表的短文本数据处理等应用中,通常需要在流式数据处理系统上运行多个计算任务,且不同任务的实时性要求不尽相同.针对于这种多重的实时性需求,如

会议

异丙醇法合成甲基异丁基酮催化剂的性能研究

本文采用管式积分反应器和无梯度反应器对UC-50细粉催化剂和工业粒度催化剂的催化性能进行了研究,对催化剂失活原因进行了探索.研究结果表明,在上述反应器中该催化剂具有较好

学位

异丙醇甲基异丁基酮催化剂有机合成氧致失活

面向大数据的高时效计算机系统结构

　　当前，商业智能、社会管理、科学计算等多个领域的大数据处理应用都蕴含了高性能、低延迟的需求，对传统数据处理设施带来了高时效计算挑战，迫切需要在大数据的存取方法、处理

会议

大数据时效计算机系统结构处理应用硬件和软件社会管理商业智能科学计算

延迟焦化反应分子级模拟的研究

该研究以延迟焦化工艺为背景,以炼厂常规分析数据为依据,借鉴结构导向集总的方法以含有14个特征值的向量来构造分子,利用蒙特卡罗方法对原料油进行表征,将其转化为1000个分子

学位

复杂反应体系延迟焦化反应动力学分子尺度

PipelineJoin:一种新的基于MapReduce的多表连接算法

与本文相关的学术论文