海量空间环境数据分布式并行处理关键技术研究

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:tony569257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
空间环境数据集是卫星探测器载荷对空间环境采样而来的一个持续增大的数据集。随着探测器卫星及其探测器载荷的增多,这一数据集对空间环境的描述也将越来越细粒度,增度也将越来越快。面对海量的空间环境数据,较多的研究集中于针对该TB级数据中一个小子集数据的可视化设计实现中,且受单机计算能力限制,海量的空间环境数据中蕴含的大量统计学角度讲很有价值的信息还没有被挖掘出来。1)海量存储和现有文件系统之间的矛盾;2)海量计算需求与单机计算能力限制之间的矛盾,将越来越突出。分布式并行计算技术能够改善以上两个矛盾。本文以分布式计算框架中一个优秀的实现Hadoop为例,将分布式并行计算技术引入到空间环境数据分析中来。并针对以上两个矛盾展开了两部分内容的研究。(1)空间环境数据的分布式存储。首先讨论空间环境数据的形式、特点和应用,分析卫星数据的分布式并行化处理需求及其可行性。从存储和并行计算两个子框架出发对分布式并行机理进行阐述。然后,归纳总结空间环境数据HDFS小文件问题现状及其解决方向,结合卫星数据的形式和特点,通过改进小文件合并形式及提出DTBF算法等改善卫星数据的小文件集在分布式文件系统上的低读写效率和高内存使用问题,并设计实现空间环境数据分布式文件管理器。(2)空间环境数据并行化计算。针对空间环境数据的并行计算需求,本文通过使用元数据文件设计实现空间环境数据的统一预处理模型,用以解决其数据集成、清洗、变换和简化的预处理需求。接着分析空间环境数据分析的算法级和任务级并行化,并提出一种映射任务满载的任务并行推送MFL-TP算法来优化空间环境数据分析中多子任务并行的运行效率。最后,引入Kmeans聚类算法来解决典型空间环境数据的分析任务中可视化分析的不足,并实现该聚类算法的并行化以解决其在大量数据中的内存和运行时间瓶颈问题。本文搭建空间环境分布式实验集群,对提出的改进空间环境数据HDFS内存利用和文件访问方法进行实验,实验验证达到了预期的设计目标。对并行Kmeans算法和MFL-TP算法的实验也验证了算法并行化带来的大量数据分析的时间和空间效率。本文的研究成果可以应用到海量空间环境数据分析中,对未来空间环境数据分布式并行计算和空间环境数据挖掘的研究具有参考意义。
其他文献
目的探讨慢阻肺患者FeNO值的临床意义。方法分别测定健康对照组,稳定期慢阻肺组,AECOPD组各50人的FeNO值,比较各组差异,评估慢阻肺组的FeNO值与肺功能,吸烟等的关系。结果正
目的观察微创经皮单平面椎弓根螺钉间接减压治疗胸腰椎骨折的椎管侵占率和椎体高度变化。方法回顾性分析2015年1月至2017年1月我院采用后路微创经皮单平面椎弓根螺钉间接复位
对轻工业经济增长方式转变的若干思考戎文佐轻工业与消费经济有着极为密切的关系,消费品工业是第Ⅱ部类工业的统称,在我国一般也称作轻工业或轻纺工业。十四届五中全会提出的建
加快媒体融合的建设步伐,抢占传播制高点,将党和国家的声音更有效快速的传播到各级人民群众中去是我们作为媒体人不可推卸的责任。笔者通过参加浙江传媒学院融合媒体技术实战
随着经济不断发展和社会转型升级,中国社会面临日益突出的矛盾之一是公共需求的全面快速增长与公共服务不到位、基本公共产品短缺的突出矛盾。解决问题的重点和难点在农村,农
民主集中制是民主基础上的集中和集中指导之下的民主相结合的制度,从目前的研究现状来看,对民主集中制的研究探讨,学界大多集中在政党组织原则的层面,而从宪法学角度的分析较少。
广西河池市是"老、少、边、山、穷"的少数民族地区,其乡土文化资源十分丰富,这些少数民族文化乡土资源在地方艺术类人才培养中发挥着重要作用。在"一带一路"建设的大背景下,
论闲暇生活的道德导向胡知武,曾钊新人的生命活动时间包括必需活动时间和闲暇活动时间两个部分.闲暇时间是个人感到最自由和最能表现个性特征的时间。在这个时间里,不仅人们的动
交通事故信息管理系统可以帮助交通和交通事故的管理,使得交通和交通事故的管理更加科学。通过对交通事故信息管理系统所需要的信息记录、功能、模块及模型的探讨,浅显的介绍