【摘 要】
:
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop
【机 构】
:
东北大学软件学院; 东北大学信息科学与工程学院; Laboratoire IRIT, Université Paul Sabatier;
【基金项目】
:
国家自然科学基金(61202088);中央高校基本科研业务费专项资金(N120817001);中国博士后科学基金面上项目(2013M540232);教育部博士点基金(20120042110028);教育部-英特尔信息技术专项科研基金(MOE-INTEL-2012-06)
论文部分内容阅读
大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能.
其他文献
工业互联网数据安全问题近年来引起广泛关注,由于工业互联网数据形态种类多样,安全防护需求不一,因此亟需实施有效的数据分类分级措施、开展差异化分级防护,切实保障工业互联
有轨电车建设在我国很多大城市正方兴未艾,作为一种地面轨道交通,其对沿线城市景观及交通功能都造成了冲击。本文针对这一问题,系统地分析了有轨电车沿线开展景观设计的必要
近年来,软件体系结构逐渐成为软件工程领域的研究热点以及大型软件系统与软件产品线开发中的关键技术之一.归纳了软件体系结构技术发展过程及其主要研究方向.在分析了典型的
煤液化重质产物结构及其缔合性能对改善煤直接液化工艺,提高液化效率,促进重质产物利用具有非常重要的指导意义。本文首先利用模型化合物研究了芳香结构的荧光光谱的结构相关
本文在对“城镇失业人员”和“城镇登记失业人员”以及“城镇失业率”与“城镇登记失业率”的概念进行区分的基础上 ,分析了 1978~ 1998年中国城镇登记失业人员数量和登记失业
<正>ERP20余年一路走来,在企业信息化领域发挥着至关重要的作用,而近年来随着云计算、大数据、移动互联等"新秀"的出现,ERP似乎黯然失色,难道ERP真的被打入了"冷宫"?ERP(企业
以Cocos2D-X游戏引擎为基础,使用Tiled Map Editor地图块图编辑器实现游戏地形的创建和属性自定义,通过引擎内部的动作链实现游戏精灵的帧动画效果,同时结合行为树完成游戏精
本文从三峡工程的工程规模、施工强度、施工场地条件,施工技术要求等方面,就三峡工程的工期问题作了较全面论述。文章认为,施工专家组提出的三峡工程正常蓄水位175m方案的工
随着信息时代的迅速发展,全球的数据正爆发式的增长,如何对这些海量的数据进行有效存储使用并保证其隐私性正成为人们关注的焦点。本文利用云存储服务技术和云计算技术有效的
动脉粥样硬化是一种常发慢性血管疾病,表现为脂质沉积、炎症反应,细胞和瘢痕组织堆积在动脉内壁,造成动脉管腔狭窄。临床研究表明,易损颈动脉粥样硬化斑块是导致缺血性脑血管