论文部分内容阅读
空间环境数据集是卫星探测器载荷对空间环境采样而来的一个持续增大的数据集。随着探测器卫星及其探测器载荷的增多,这一数据集对空间环境的描述也将越来越细粒度,增度也将越来越快。面对海量的空间环境数据,较多的研究集中于针对该TB级数据中一个小子集数据的可视化设计实现中,且受单机计算能力限制,海量的空间环境数据中蕴含的大量统计学角度讲很有价值的信息还没有被挖掘出来。1)海量存储和现有文件系统之间的矛盾;2)海量计算需求与单机计算能力限制之间的矛盾,将越来越突出。分布式并行计算技术能够改善以上两个矛盾。本文以分布式计算框架中一个优秀的实现Hadoop为例,将分布式并行计算技术引入到空间环境数据分析中来。并针对以上两个矛盾展开了两部分内容的研究。(1)空间环境数据的分布式存储。首先讨论空间环境数据的形式、特点和应用,分析卫星数据的分布式并行化处理需求及其可行性。从存储和并行计算两个子框架出发对分布式并行机理进行阐述。然后,归纳总结空间环境数据HDFS小文件问题现状及其解决方向,结合卫星数据的形式和特点,通过改进小文件合并形式及提出DTBF算法等改善卫星数据的小文件集在分布式文件系统上的低读写效率和高内存使用问题,并设计实现空间环境数据分布式文件管理器。(2)空间环境数据并行化计算。针对空间环境数据的并行计算需求,本文通过使用元数据文件设计实现空间环境数据的统一预处理模型,用以解决其数据集成、清洗、变换和简化的预处理需求。接着分析空间环境数据分析的算法级和任务级并行化,并提出一种映射任务满载的任务并行推送MFL-TP算法来优化空间环境数据分析中多子任务并行的运行效率。最后,引入Kmeans聚类算法来解决典型空间环境数据的分析任务中可视化分析的不足,并实现该聚类算法的并行化以解决其在大量数据中的内存和运行时间瓶颈问题。本文搭建空间环境分布式实验集群,对提出的改进空间环境数据HDFS内存利用和文件访问方法进行实验,实验验证达到了预期的设计目标。对并行Kmeans算法和MFL-TP算法的实验也验证了算法并行化带来的大量数据分析的时间和空间效率。本文的研究成果可以应用到海量空间环境数据分析中,对未来空间环境数据分布式并行计算和空间环境数据挖掘的研究具有参考意义。