基于计算特性的Spark内存自适应管理策略研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kobiko
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息时代到来的是海量的数据信息,在被称为“大数据”时代的21世纪,大数据的处理成为了这个时代的难题。目前,分布式计算机技术是处理大数据的主流方式,通过建立分布式集群,能让分布式系统获得堪比超级计算机的运算能力,而且分布式系统的计算和存储能力还会随着集群的扩展而不断提升。但是,内存容量不足一直是制约分布式系统性能的一大因素,但随着内存制造工艺的发展提高,一种新型的基于内存计算技术的分布式框架——Spark,应运而生。Spark在处理迭代式机器学习运算和交互式实时查询操作时,所获得的性能远超其他分布式框架。然而,内存容量始终要比数据的规模小得多,在内存不足时,Spark会遭遇到性能瓶颈。如何高效地使用内存,成为了提升Spark系统性能的关键问题。为了解决这个难题,本课题设计了一种自适应的内存调优策略。这种自适应调优策略主要分为三个部分:首先,是针对数据序列化算法的自适应优化策略。数据序列化是分布式系统中常用的优化方式,与系统性能的优劣密切相关。序列化方法在节省存储空间的同时,还能减轻系统垃圾回收的压力。同时,数据要在分布式集群各个节点间传输,也必须要进行序列化操作。序列化自适应策略通过当前系统的资源消耗情况,来选择合适的序列化算法。其次,是数据压缩算法的的自适应优化策略。压缩算法可将数据压缩至原来的几分之一,甚至十几分之一,相比于序列化方法,更能节省系统存储空间。但是,每种不同的压缩算法之间,也是存在差异的。自适应算法会根据系统情况选择合适的压缩算法。最后,是垃圾回收的自适应优化策略。对于运行在JVM虚拟机上的Spark分布式框架来说,JVM的性能优劣直接关系到了整个系统的性能好坏。自适应算法通过收集和分析系统当前系统信息,进行垃圾回收的调优。在设计部分,通过对Spark源代码的添加和修改,本课题在原生的Spark系统上实现了SATS(Spark Adaptive Tuning Strategy)子系统,系统分为三个模块:运行时数据收集模块、自适应决策模块和参数优化模块。实现部分对着三个模块的实现细节进行了详细描述。在实验部分,详细的分析了实验结果,并验证了条有策略的有效性。
其他文献
保险业是现代经济发展的重要支柱和风险管理的基本手段,为推动社会经济发展、保障人民生产生活做出了积极贡献。Z保险公司是中国加入WTO后首家获准成立的中外合资保险公司,在
股利分配作为公司三大财务决策的内容之一,是上市公司进行利益分配的重要手段,也被视为降低股东和经理人代理成本的途径之一,因此一直是国内外研究学者进行财务研究的重要话
近场地震相对于远场地震具有特殊的作用效应且地震中财产损失和伤亡人数大多集中在近场区域,分析近场地震作用下的地面运动具有重要的现实意义。土层的存在是加剧近场地面运动的因素,在近断层地震地面运动研究中,考虑客观土层存在并研究土层对地面运动放大作用的研究较少,考虑土层放大作用的近断层地震地面运动研究具有重要理论意义。研究内容及结果如下:研究了有限断层震源模型在理想模型地面运动数值模拟中的运用,应用ABA
多铁性材料是一类含有两种或两种以上铁性的多功能材料,具有丰富的物理现象和广泛的应用前景。本论文从实验上制备得到掺杂钙钛矿锰氧化物及其多铁复合薄膜,研究材料的磁特性
胚胎的早期图式发生是个体发育中极为重要的一个环节,背腹轴形成是胚胎对称性被打破的最早事件,决定了器官沿着背腹方向的排列顺序,确立了脊椎动物两侧对称的身体蓝图。在斑
近年来,由于煤炭无尽的开采和大规模的利用,大量开采煤炭使煤炭资源急剧减少,导致多数煤矿无煤可采而停止采煤并关闭煤坑。由于矿井、坑道等长久缺少支撑和维护,在长时间的重力作用下会发生坑道沉陷、崩塌等情况,造成地面塌陷、沉降,严重情况下会引起地质灾害,给位于采空区附近的居民造成严重的生命财产威胁。所以,明确空区的详细情况,为采空区的治理提供必要的基础资料,就成了切实需要处理的问题。勘查煤矿采空区时,物探
受氯离子侵蚀和混凝土碳化等环境作用的影响,混凝土中的钢筋时常发生腐蚀。钢筋腐蚀不仅会产生锈胀压力,导致混凝土保护层发生开裂甚至剥落,影响混凝土结构的美观和正常使用,
制备高催化性能和高稳定性的电化学析氢催化材料一直是科研人员们的重点研究方向。二硫化钨(WS_2)作为一种重要的过渡金属硫化物,因具有独特的层状结构而受到了人们的重点关注。但纯相的WS_2由于其催化性能较低且导电性能较差,而无法被广泛应用。本论文通过化学气相沉积法,分别合成出了片状WS_2/WP/C复合材料和多孔WS_2/C复合材料,具体的研究内容如下:(1)以H_2W_2O_7/DDA为前驱体,硫
伴随着神经网络模型在各行业的广泛使用,其正确性和健壮性正在受到学术界和工业界越来越多的关注,特别是在安全攸关的领域中,如自动驾驶、恶意软件检测等,神经网络的每一次错误判断都将可能带来无法挽回的后果。神经网络是一种基于数理统计的优化模型,其目的在于使用近似函数高效地处理物理世界中难以描述的输入输出关系,这意味着神经网络对未知输入天然的不确定性;而形式化方法是一种建立在严谨数学逻辑上的适用于描述软硬件
随着数字计算机在工程和科学上应用的增加,人们开始越来越多的使用计算机进行控制器设计,此时被控对象通常是连续的,这种对连续对象设计离散控制器的系统称为采样控制系统。时滞广泛存在于采样控制系统中,因此对时滞不确定采样系统进行稳定性研究与控制器设计十分必要,本文主要在时域上对采样系统进行稳定性分析和控制器设计。本文首先对于一类采样控制系统,利用输入时滞法,将其转换为具有输入时滞的连续系统,通过构造出Ly