PipelineJoin:一种新的基于MapReduce的多表连接算法

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:qq81205690
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  MapReduce是一个并行分布式计算模型,已经被广泛应用于处理两个或多个大型表的连接操作。现有的基于MapReduce的多表连接算法,在处理链式连接时,或者不能处理多个大表的连接,或者需要顺序运行较多的MapReduce任务,效率较低。提出了一个基于MapReduce的多表连接算法——Pipeline Join,可以高效地实现任意多个大表的链式连接。 PipelineJoin采用流水线模型和调度器来实现MapReduce任务的流水线式执行,从而有效提高多表连接的效率,同时可以较好地克服已有链式多表连接算法的缺陷。在不同规模的数据集上进行了大量实验,实验结果表明PipelineJoin算法与原有链式多表连接算法相比,可以有效减少连接所需的时间。
其他文献
该文在改造的重油微反实验装置上,分别以含异丁烷为主和含C烯烃为主的C烃类混合物为原料使和CPP催化裂解催化剂考察了C烃类的催化裂解情况,并对其反应动力学规律进行了分析.
  通过大数据的引入,可以降低问题解决难度。本报告探讨对于NP类问题,是否可以借助大数据寻求新的解题思路。对于NP问题的算法可获取性,算法精度,算法复杂度,以及需要数据的数量
哺乳动物精卵融合是一个精卵表面众多分子参与的复杂过程。基因敲除实验证明位于精子表面的具有二硫键的免疫球蛋白超家族成员IZUMO1是精卵融合的必须因子。体外抑制剂和抗体
  在计算理论中,计算复杂类主要研究P类与NP类两大类问题。在大数据的情况下,为了提高P类问题的求解速度,可采用并行方法,其中一个实例就是NC类并行计算;为了改进NP类问题的
  高性能计算已经成为解决许多大数据问题的必需技术手段,而目前的大数据处理主要都围绕大数据的volume和velocity这两个挑战,对于variety挑战的研究相对较少。我们提出一个
机械基础既有很强的理论性,又有很强的实践性。要学好这门课程,学生应既有一定的形象思维能力,又有较强的记忆能力。实践表明,从简单机械入手,结合教学用模型和生活中的实际
  在以Twitter数据分析为代表的短文本数据处理等应用中,通常需要在流式数据处理系统上运行多个计算任务,且不同任务的实时性要求不尽相同.针对于这种多重的实时性需求,如
会议
本文采用管式积分反应器和无梯度反应器对UC-50细粉催化剂和工业粒度催化剂的催化性能进行了研究,对催化剂失活原因进行了探索.研究结果表明,在上述反应器中该催化剂具有较好
  当前,商业智能、社会管理、科学计算等多个领域的大数据处理应用都蕴含了高性能、低延迟的需求,对传统数据处理设施带来了高时效计算挑战,迫切需要在大数据的存取方法、处理
该研究以延迟焦化工艺为背景,以炼厂常规分析数据为依据,借鉴结构导向集总的方法以含有14个特征值的向量来构造分子,利用蒙特卡罗方法对原料油进行表征,将其转化为1000个分子