SparkArray:基于数组的科学数据管理系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:striveformonen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对大型科学数据的操作要求越来越高,科学家们需要灵活的集群软件来执行快速的科学数据分析。本文在Spark平台上针对不同的实现数组操作的方法,对算法进行分析和性能评估;并提出SparkArray系统,基于科学数据数组模型,实现并优化了一系列常见的数组操作。本文创新点主要有:  1.比较分析了independent、overlap和merge三种集群处理数组算法,在高斯滤波、集群提取等数组操作上分别实现三种算法。实验结果表明,independent算法的并行度最高,但网络传输量大,overlap方法可以在并行度和网络传输量两方面得到较好的权衡,性能最好。  2.针对科学数组数据,提出一种新的Join算法——Filter Join。利用数组将坐标值作为Key的特点,在Join运算之前计算两数组重合部分的坐标范围,过滤掉不需要的值,只对需要的数据进行连接。Filter Join方法减少了数据传输量,但同时也增加了计算步骤。因此需要找到一个阈值,来判断是否需要进行Filter Join。实验结果表明,和传统广播Join、分区Join相比,在数组大小逐渐超过1w5*1w5或者数组覆盖率超过50%时,Filter Join性能最好。  3.本文还用SparkArray实现了标准科学数据库的基准SS-DB,并与开源数据库管理系统SciDB比较。结果表明,在对数据进行快速加载或者一次性分析的情况下,SparkArray优势比较明显。实验表明,如果考虑查询的总执行时间,SparkArray在所有查询情况下都比SciDB快得多(快8倍到17倍)。
其他文献
随着嵌入式系统日益普及,基于嵌入式系统开发应用软件的需求越来越广泛,但是嵌入式系统资源(如CPU处理能力、内存容量、功耗等)有限,从而使在该系统上运行的应用软件的大小及运
信息技术和互联网的发展,深刻地影响了人们获取资讯的方式。人们的新闻消费模式已经从传统的订阅报纸,转变成了通过互联网访问成千上万的不同来源的新闻。互联网不仅加速了人们
轻纺产品图案的差异化和多样化是轻纺领域打造竞争优势的关键,因此图案的设计和制作在轻纺行业占据相当重要的地位。近年来,结合人工智能和图形图像技术的智能图案创作系统得到
协议是网络和通信的核心,协议形式化理论的研究是一项十分重要的基础性、前瞻性和创新性的研究.它主要包括协议形式化描述、协议验证、协议实现、协议测试等方面的理论和方法
时间序列模式、分类规则和关联规则挖掘是当前数据挖掘研究中一个热点。本文对时间序列模式、分类规则和关联规则挖掘的方法进行了深入的研究。挖掘规则及其它知识是一个多阶
随着空间信息管理技术的不断成熟和空间信息服务系统的逐步普及化,人们对随时、随地获取空间信息服务的需求越来越普遍也越来越迫切。与此同时,无线传输技术的更新换代和无线互
组件技术是解决软件危机、提高软件开发效率和质量的有效途径,有助于软件工程化、工厂化生产的实现.组件技术的出现是对传统软件开发过程的一次重大变革.Internet的飞速发展,
近年来,受益于大数据和深度学习技术的发展,语音识别技术取得巨大进步,语音识别准确率大幅提高。但是受环境噪音、口音、语义等方面的限制,语音识别错误仍然难以避免,特别是在专业
随着二十一世纪数字地球时代的来临,专用高速数字信息的处理技术成为发展的方向,在巨大的应用前景的驱动下,专门为高速数字信息处理而设计的数字信号处理器(DSP)成为数字化领域
学位