分布式数据立方计算

被引量 : 2次 | 上传用户:passtestall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据立方(Data Cube)是一种有效支持OLAP的多维数据计算模型。它通过预先计算数据表中各属性间所有组合对应的GroupBy结果并将其存储起来,以缩短系统的响应时间从而提高查询效率。随着数据量的急剧增长,分布式计算(如MapReduce)的使用日益广泛,将数据立方计算与分布式结合是必然的趋势。对于代数度量,如SUM等,简单地采用MapReduce框架即可高效地完成数据立方的计算。但对于整体性度量,如DISTINCT等,若与MapReduce简单地结合,则会出现负载不均衡、中间数据过多等问题。当前最好的分布式数据立方计算算法MR-Cube,通过数据划分、合并计算的方法减缓上述问题。但是该算法对数据划分不够精准,会导致一些不必要的数据划分,加重之后的合并操作。而对于合并计算,该算法仅提出了一些规则,而无简单且有效的合并方法,并且进行合并计算时使用BUC算法亦未充分利用MapReduce框架的特性。为了更好地解决负载不均衡、中间数据过多的问题,本论文借鉴TeraSort与PipeSort,提出TeraSortPipeSort-Cube算法(以下简称TSP-Cube算法)。TSP-Cube借鉴TeraSort随机抽样的思想,根据数据出现的频率对数据进行划分,不仅可以有效避免不必要的划分,并且适用于各种分布类型的数据集,从而有效解决负载不均衡的问题。同时TSP-Cube采用能充分利用MapReduce框架特性的PipeSort替代MR-Cube中的BUC进行合并计算,并且针对层次型的数据集,根据其属性特征以及PipeSort的特性,采用更简单有效且均匀的合并计算方案,从而解决中间数据过多的问题。论文通过实验证明,无论在均匀分布或是倾斜分布下,TSP-Cube在整体性度量函数中都有更好的性能,比已有的分布式算法更通用。此外,实验还对多种算法在代数度量下的性能进行了比较,从而得出不同类型的度量应采用的方法。
其他文献
马克斯·韦伯是历史上第一个完整提出“经济伦理”概念的思想家,他致力于研究宗教背后的经济伦理,认为每一种宗教都有属于自己独特的经济伦理。宗教对于塑造经济伦理有着重要
目的:探讨品管圈活动对助孕患者居家自行使用果纳芬预装式注射笔健康教育的影响。方法:选取2012年10至12月在开展品管圈活动前在本中心接受助孕治疗促排卵药物启动日、自愿选择
郭璞是生活在两晋之际卓越的文学家和知名的训诂学家。同时郭璞又是一个精通天文、五行、卜筮之术,博学多才的学者,尤其精通风水、堪舆之学,历史上有其占卜预测、阴阳灾变的巫术
在现代经济学体系中,“比较制度分析”(Comparative Institutional Analysis,简称CIA)是一门新兴的领域,青木昌彦是“比较制度分析”最具代表性人物,在这一研究领域做出了开拓性
电控旋翼是极具应用前景的新概念旋翼系统之一。为设计出综合性能更佳的电控旋翼,本文针对电控旋翼气动结构优化问题进行研究,建立了适用于电控旋翼的气动结构综合优化方法,主要
本文在文献[1]探讨竞争情报"收集方式"与企业绩效关系的基础上,进一步探讨了竞争情报工作过程中情报规划、情报加工、情报传播、情报应用等4个环节与企业绩效的关系,为企业竞
民间文化是生活的、大众的、世俗的文化,又是代代口传心授、活态的文化。作为生长于民间文化背景之上和承载民间文化内涵的民间武艺——传统武术,如今,面对多元文化生态生存环境
空对地攻击是指空中对地面目标进行攻击的作战行动,在实战中有着非常重要的应用。鉴于现代战争中对作战效率的高要求,并不断强调战争零伤亡,无人机作为空地武器发射平台,对目标实
形象经济时代的到来与文化旅游业的迅速发展,使得文化旅游景区组织单位的整体形象成为日益激烈的市场竞争中最重要的无形资产。景区员工作为景区形象的实际创造者,对传播景区历