基于Hadoop的统计直方图数据立方的构建与查询技术研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:hard_158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代信息技术的深入应用,信息的来源日益增多,数据规模呈现急剧增长的趋势。面对海量的数据,越来越多的企业或组织开始重视数据的存储应用,数据仓库在这方面的应用越来越广泛。在数据仓库基础之上的数据分析对于企业或组织定量的决策发挥着越来越重要的作用,对于海量数据的处理需要更高的计算和存储能力,在普通PC面对这样的问题出现瓶颈的时候,云计算平台以及相关技术的出现,为研究解决该问题提供了支持,如何在云计算环境下有效的组织存储数据,高效的完成海量数据上的分析处理成为一个热点研究问题。本文通过详细分析了当前联机决策分析(OLAP)技术在面对海量数据时查询处理时的局限性,提出了一种新的多维聚集通用模型,详细分析了该模型在OLAP分析上的可行性,利用MapReduce在处理大规模数据时的并行处理能力和分布式文件系统的存储能力,完成了基于统计直方图的数据立方的构建和存储,并在该模型下,设计实现了OLAP分析的经典聚集算法,如求和、计数等算法,对于传统OLAP分析无法支持的分析操作,如求众数、中位数等,利用该模型的特点在MapReduce下设计实现了相应的算法,算法可以高效的利用Hadoop集群的计算能力完成分析操作。另外在本模型下,提出了海量数据下数据更新问题解决方案,可以较好的支持数据的增量更新。通过以上方法,极大的提高了海量数据上的聚集查询运算效率,可以较好的支持海量数据上的OLAP分析操作。针对数据仓库上的近似查询需求,本文还在统计直方图的基础上,重新设计了一种新的直方图划分方法,分析了该划分方法下产生的误差以及空间损耗,并在划分后的直方图上,重新设计了不同的聚集查询算法计算近似的查询结果,利用该方法,能够有效降低聚集查询计算时间,减少查询的响应时间,从而高效的支持用户提出的近似查询需求。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种全天候收集地表信息,并利用信号处理操作实现高分辨率成像的工具,它在自然灾害预测、军事情报侦察、地形地貌测绘、资源考
摘要: 本文分析了面向对象软件的特点及其对测试的影响,综述了面向对象软件测试的层次划分、各层的测试特点以及类级和类簇级的各种测试方法。文章着重研究探讨了面向对象测
数据库技术是计算机技术体系中最重要的部分之一.面对日益复杂的企业应用,数据持久层被提出并不断发展.它克服了传统数据库直接访问简单、僵化的缺点,大幅度提高了系统开发效
随着多核处理器的计算性能突飞猛进,成本不断降低,多核处理器已经广泛应用于嵌入式系统。另一方面,随着嵌入式系统性能的发展,图像处理技术也越来越多的应用于嵌入式系统。图像处
随着Internet技术的发展,WWW上积累了大量数据,成为世界上最大的数据源。但Web信息多以HTML格式发布,缺乏语义信息,造成大量的Web数据不能直接为应用程序直接使用。为了使大量的W
人类从自然界获得解决科学难题的灵感,借鉴自然界自身的规律,解决人类面临的科学问题已经成为现代科学研究中的一个非常新的研究思路。 本文就是在认识生物免疫系统运行机理
为了解决软件开发的复杂性问题,该文研究了模型驱动开发的核心思想,提出了一种敏捷模型驱动的多元层次软件开发方法.这种开发框架把软件开发划分为参考模型的元模型,参考模型
当今社会是一个信息社会,信息数据正以超乎人们想象的速度增长。信息对于人们来说是越来越重要,面对各种各样、庞大复杂的信息和数据,怎样安全地保存、及时地传输、快速地恢
Anycast是IPv6中提出的一种新型的网络服务,它在主机自动配置、网络负载均衡等方面的应用都非常广泛。对Anycast路由协议进行研究是确保Anycast服务能否实现的关键,Anycast路由
网络与信息安全问题已经日益突出,黑客入侵、信息泄密以及病毒泛滥所带来的危害引起了世界各地的高度重视。世界各国开始将网络与信息安全提高到国家安全的高度加以重视和研