基于Spark的海洋Argo数据查询处理与插值算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户：zjp_22

【摘要】

：

随着大数据的兴起,人们对于大数据处理技术的研究不断深入。为了满足不断增长的数据存储和处理的需求,越来越多的应用向分布式的方向发展。Google提出的MapReduce及其开源实

【作者】

：

孔德福

【出处】

：

东北大学

【发表日期】

：

2015年01期

【关键词】

：

Spark Argo 查询处理插值算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据的兴起,人们对于大数据处理技术的研究不断深入。为了满足不断增长的数据存储和处理的需求,越来越多的应用向分布式的方向发展。Google提出的MapReduce及其开源实现Hadoop,能够实现分布式环境下大规模数据的批量处理,并且具有优异的可扩展性和高容错性。Spark通过简单地扩展MapReduce,增加高效的数据共享,也就是弹性分布式数据集(RDD),从而能够有效地满足大部分作业的性能需求。在一些应用领域中,Spark在接近或者超过专有系统性能的同时,也提供更强大的容错能力,并允许这些作业之间相互结合。随着Argo全球观测网的建设,到目前为止,全球己经积累了大量的海洋Argo环境观测数据。海洋Argo数据具有数据量大、离散分布的特点,使用传统技术进行数据查询处理的效率太低,而且大多数的实际应用要求数据均匀、连续分布,从而便于数据的可视化和进一步分析,这就要求使用合适的空间插值算法对海洋Argo数据进行插值。由于海洋Argo数据积累的数据量比较大,且插值计算比较复杂,因而需要MapReduce和Spark这样的分布式编程框架来对插值计算进行分布式处理,提高插值效率。本文依托国家海洋公益项目“海洋环境信息云计算与云服务体系框架应用研究”,对云环境下海洋Argo数据的查询处理与插值问题进行了深入的研究,主要做了如下工作:(1)针对海洋Argo数据的数据量比较大,传统的数据查询方式效率低的问题,提出一种云环境下适合海洋Argo数据查询处理的并行索引结构。首先,将原始Argo数据进行预处理之后存储到HDFS上,然后根据海洋Argo数据的特点和实际需求,建立基于哈希划分和空间网格划分的双层网格索引结构。该索引结构具有扁平化、适合分布式处理的特点,能够有效地提高数据查询效率。(2)针对云环境下海洋Argo数据的查询需求,基于所建立的双层网格索引,提出多种Spark下的并行查询算法,包括ID查询算法、空间范围查询算法和时空范围查询算法,充分利用双层网格索引的过滤功能和Spark的分布式并行处理能力,具有较高的查询效率。(3)针对插值算法计算复杂、数据量比较大时插值速度过慢的问题,将现有的插值算法移植到Spark上,并加以改进,提出PIRPS算法和混合参考点选取策略,利用Spark框架来实现插值计算的分布式处理,提高插值效率。同时基于Spark实现了两种常见的空间插值算法,并比较了两种算法的适用性。(4)本文最后通过大量的实验,对基于Spark的海洋Argo数据查询处理和插值算法的效率进行验证。实验结果表明,本文所提出的索引结构和相关算法能够有效地提高Argo数据查询和插值处理的速度,改进后的插值算法的性能优于原算法。

其他文献

寓社会主义核心价值体系于大学生职业生涯教育中

将社会主义核心价值体系寓于大学生职业生涯教育,要通过寓马克思主义指导思想、中国特色社会主义共同理想、民族精神和时代精神、社会主义荣辱观于大学生职业生涯理论教育、

期刊

社会主义核心价值体系大学生职业生涯教育

Lp-空间中对凸体的若干问题研究

本文研究的内容隶属于凸几何分析中的Lp-Brunn-Minkowski理论，主要致力于对Lp-Brunn-Minkowski理论中某些几何体及几何测度的极值问题和几何不等式进行了研究.本文主要利用了L

学位

凸体星体Lp-Brunn-Minkowski理论Shephard问题Lp-对偶仿射表面积Lp-对偶几何表面积Lp-投影体Lp-质心体Lp-混合曲

节能环保助推产业升级

为了更好地贯彻执行国家节能减排政策,交流推广行业节能环保技术,由中国印染行业协会主办的＂2011传化股份全国印染行业节能环保年会＂11月3日在江苏常州召开。中国纺织工业联合

期刊

节能环保技术产业升级印染行业助推生产工艺技术回收利用技术行业协会节能减排

辛开苦降清热利湿法治疗脾胃湿热型Hp相关性慢性胃炎的临床研究

目的:从Hp的清除率、复发率,胃镜及病理变化,不良反应,中医症状评分、临床疗效等方面,观察辛开苦降清热利湿法即加味半夏泻心汤治疗脾胃湿热型Hp相关性胃炎的临床疗效。方法:共收集60例符合脾胃湿热型Hp相关性慢性胃炎诊断的的门诊及住院患者,随机分为治疗组30例与对照组30例。对照组:PPI+丽珠胃三联片,奥美拉唑镁肠溶片:20mg,Bid,早晚餐前服用;枸橼酸铋钾片:0.6g,Bid,早、晚餐前服用

学位

辛开苦降清热利湿法脾胃湿热型Hp相关性慢性胃炎临床研究

基于SDR多波形传输发射机FPGA的实现与验证

本文来源于一项高超音速无线通信系统开发项目。该无线通信项目拟开发一套以SDR平台为实现基础的远距离多场景无线通信设备,以达到在复杂的电磁干扰环境及高速移动环境中构建一个安全可靠的无线通信系统,并能够有效地完成特定用户数据可靠传输的目的。本文围绕该无线通信系统的发射机部分进行基于软件无线电平台的FPGA开发实现,并对最终设计的发射机系统进行仿真测试与板级验证。OFDM调制有频谱效率高,灵活分配频谱资

学位

软件无线电OFDMDFT-S-OFDMFPGA

基于AD9361的宽带OFDM收发信机开发

无线宽带化、小型密集化是无线通信的发展趋势,LTE Picocell、Femotcell等类似便携设备的需求快速增长。尤其是应急通信场景,更是要求便携,最好是手持,对体积和重量更是提出

学位

LTE掌上型收发信机AD9361低噪声

浅谈电子阅览室的建设

建立电子阅览室是图书馆现代化发展的一个方向。本文结合佛山市图书馆开办电子阅览室的经验，论述了目前建设电子阅览室应注意的有关问题，诸如对环境的选择和布置、对计算机设备

期刊

电子阅览室图书馆

关于提高针灸疗效的若干因素

期刊

针灸疗法中医发展研究效应影响因素穴位功能特异性

基于Spark的海洋Argo数据查询处理与插值算法的研究与实现

其他学术论文