论文部分内容阅读
定量遥感反演是遥感领域中重要的研究方向。近些年来,随着遥感科学和技术的不断发展,日益增长的海量多源遥感数据以及日趋复杂的定量遥感反演模型和算法,给定量遥感反演的广泛应用带来了巨大的挑战。如何高效地存储和管理海量遥感数据,充分利用计算资源进行快速的遥感数据自动化和定量化处理,已经成为业务化定量遥感反演应用中一个亟需解决的问题。为实现快速的遥感反演应用,遥感大数据的高效存储和管理是基石,基于先进的高性能计算技术的遥感反演细粒度并行,以及基于分布式工作流技术的遥感反演流程粗粒度并行是关键。因此,考虑遥感反演应用特点,研究上述三个方面的核心问题,从而实现高效的遥感定量反演应用是本文的目标。 在此背景下,本文针对定量遥感反演应用中海量遥感数据快速处理的迫切需求,依托并行文件系统、NoSQL数据库、GPU(Graphics Processing Unit)计算集群,以CPU-GPU异构协同并行计算技术及分布式工作流技术为手段,围绕“海量遥感影像存储管理——基于CPU-GPU异构系统的遥感反演高性能计算——基于分布式工作流的遥感反演任务并行”这一主线展开以下研究内容: (1)为了实现有序、高效、易用、可扩展的遥感反演应用的数据存储和管理,本文对国内外遥感数据存储中心和系统采用的架构和技术进行了阐述和分析,从并行文件系统和NoSQL数据库入手,设计了基于BeeGFS文件系统和MongoDB数据库的存储管理架构。以陆地下垫面大气气溶胶光学厚度反演应用为示例,深入研究了遥感数据的组织形式、遥感元数据及其存储和管理、遥感影像数据时空检索等关键机制,实现了一个原型系统,为高效的遥感反演应用中数据快速处理和分析奠定了良好的数据基础。 (2)当代GPU演化为具有强大浮点计算能力、高内存访问带宽、大规模并行的众核架构,基于CPU-GPU异构系统的高性能通用科学计算成为研究热点。本文以陆地下垫面大气气溶胶光学厚度反演应用为示例,从反演流程的时间瓶颈、内存消耗、数据I/O,以及处理和反演步骤的空间处理特性几个方面对反演流程进行剖析,设计和实现了CPU-GPU协同处理的高效反演工作流。针对云掩膜、气体吸收订正、几何校正、数据插值和大气气溶胶光学厚度AOD(AerosolOptical Depth)反演模型求解关键步骤,给出了基于统一计算架构CUDA(Compute Unified Device Architecture)的问题映射、内核设计、异构并行的方法,从内存访问、线程组织等方面进行了优化,分别获得了高达20.90、20.98、12.34、270.84和90.54的计算加速比。针对实际在轨遥感数据处理和分析的低能耗需求,对应用运行时的功耗和能耗进行测量和详细分析显示,本文方法在能够获得极高性能提升的同时,能耗仅占单线程的5.42%。 (3)基于CPU-GPU异构系统的定量遥感反演高性能计算的关键在于CPU和GPU二者的高效协同,CPU除了执行串行代码并管理GPU设备外,闲置的CPU核心也能承担部分计算任务。针对CPU-GPU之间的计算负载均衡问题,本文提出了一种考虑先验加速比信息的静态负载均衡方法,及一种基于空间条带划分的动态负载均衡方法,基于OpenMP和CUDA并行编程模型实现了适用于遥感反演应用的负载均衡与混合并行框架。实验表明,提出的负载均衡方法和混合并行实现框架能够充分利用CPU的闲置计算能力,获得均衡的负载划分,进一步提升反演计算的性能。在此基础上,基于MPI(Message Passing Interface)、OpenMP和CUDA并行编程模型,设计和实现了GPU计算集群上典型的四种混合并行方式。实验表明,随着遥感反演影像规模的增大,增加计算节点、采用GPU设备进行并行计算的效率明显提升。同时,计算节点内基于共享内存通信,避免MPI消息传递,能够有效降低互联网络的数据传输开销。 (4)完整的遥感反演应用一般是由一组存在数据依赖约束关系、串行或并行的多个任务组成,可由有向无环任务图表示。随着计算规模的日益增大,反演流程的日益复杂,为了提高执行效率,可以将遥感反演流程中的子节点任务分配到多个处理单元的协同完成。本文面向时间序列的遥感反演应用,提出一种基于执行时间预测的多遥感反演工作流的调度和执行方法。方法利用计算环境的历史记录信息,提取遥感反演流程子节点任务执行时间的主要影响因素,基于最小二乘学习和实例迁移学习的混合方式,进行任务的执行时间建模和预测。实验表明,执行时间的预测精度较高,基于最小二乘学习和实例迁移学习对示例气溶胶反演工作流的处理步骤时间预测平均相对误差分别为2.95%-11.97%和6.29%-32.11%。基于预测的执行时间,对适用于单个有向无环图DAG(Directed AcyclicGraph)工作流的著名的HEFT(Heterogeneous Earliest Finish Time)异构完成时间最小化启发式工作流调度方法进行扩展,结合时间空隙搜索技术,融合静态优先级和动态优先级,提出和实现了两级优先级策略的多DAG工作流调度方法。基于MPI消息传递模型实现了主从模式的调度和执行框架,对1个月的气溶胶光学厚度数据产品进行了计算。实验表明,当DAG工作流个数小于计算资源数时,本文方法在完工时间、周转时间、负载均衡和计算资源利用率等方面都具有明显的性能优势,因而非常适用于计算资源众多的分布式计算环境。