Spark集群序列化存储机制研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xstyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式计算框架为各领域大数据应用推广提供了计算平台,Hadoop下的MapReduce框架为批量数据的分布式计算提供了有效途径。然而,其大量的I/O存取开销降低了数据计算处理效率,不能满足高效、实时数据处理需求,Spark计算框架应运而生。Spark是专为大规模数据处理而设计的快速通用并行计算框架,它具有基于内存计算,高容错及高可伸缩性的特征。该计算框架采用了RDD(Resilent Distributed Datasets,弹性分布式数据集)对数据进行处理,数据处理主要通过内存迭代计算完成,能极大地提高计算效率。论文针对Spark计算框架中基于RDD内存计算模型存在的问题,主要完成了如下工作:1.针对RDD内存迭代计算过程中序列化存储带来计算效率低下问题,提出了一种基于算子的序列化存储策略。该策略根据算子种类、数据集大小、RDD执行效率等因素建立RDD归一化权重模型,从而得出序列化存储集合,在内存不足时选择有更多计算价值的RDD保存在内存中,通过与Spark中默认的序列化存储机制做对比,实验结果表明,该存储策略能够提高任务计算效率,提升节点内存利用率。2.针对单个节点或多个节点内存无法存储所有中间数据导致整个集群计算效率低下问题,进一步提出了全局序列化存储策略。该策略的思想是将无法缓存在集群的数据以离线(OFF_HEAP)方式存储在分布式缓存系统Tachyon中,通过设计RDD数据集的缓存接口,实现内存资源匮乏时自动转存Tachyon的目的,最大化的RDD内存计算,提升整个计算框架的处理能力。实验结果验证了全局序列化存储策略的有效性。综上所述,在Spark计算框架中,内存的序列化存储方案是影响Spark处理能力的关键因素,对其改进优化能够有效提升Spark并行计算系统的整体性能。
其他文献
毛细管电色谱整体柱由于具有制备简单、内部结构均匀、通透性和重现性好、无需制备塞子等优点,被誉为新一代的色谱分离介质,已引起广泛关注。硅胶整体柱作为电色谱整体柱家族
《国富论》思想具有跨时代的穿透力,读来具有启智与启示的双重效果,是专业经济学人和勤于思考的非专业人员的必读物。阅读该书可以开篇所提的六个问题为基本线索,将这些问题
经常性思想工作和经常性管理工作,是部队全面建设的根本性、基础性工作。重视抓好两个经常性工作,是我军在长期革命和建设实践中形成的优良传统,也是确保部队安全稳定的重要环节
应用代数方法研究几何图形的性质及其关系,这是解析几何的核心方法。此法的优点在于容易想到,容易入手,但也有缺点,就是运算量相对增大。其实,研究一下一些常见的圆锥曲线问题中的
近期,我们对如何做好“两个经常性”,工作进行了蹲点调研,总的来看,各级领导干部经常抓、抓经常的观念树得比较牢,“两个经常性”工作比较深入细致、扎实有效,但也存在一些不足之处
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
针对闭环供应链在经济可持续发展中具有重要地位而当前其环保投资不足的现状,构建包含政府监管策略与供应链环保投资策略的博弈模型,进行策略演化动态稳定性分析,采用数值仿
本文主要介绍中国社会主义青年团和施存统的生平以及他创建社会主义青年团的历程,分析施存统对创建社会主义青年团的贡献.