【摘 要】
:
随着互联网技术的高速发展,各式各样的互联网产品进入了人们的生活,用户行为的堆积形成了海量数据,与此同时,海量数据本身的规模属性和结构特征给数据处理带来了新的挑战。Spark作为快速通用的分布式计算引擎,广泛应用于大数据处理中,其基于内存的计算方式提升了系统的性能,而Shuffle过程仍然存在着资源利用率低和分区数据偏斜的问题。本文针对Spark框架中的不足之处,对Spark Shuffle过程中的
论文部分内容阅读
随着互联网技术的高速发展,各式各样的互联网产品进入了人们的生活,用户行为的堆积形成了海量数据,与此同时,海量数据本身的规模属性和结构特征给数据处理带来了新的挑战。Spark作为快速通用的分布式计算引擎,广泛应用于大数据处理中,其基于内存的计算方式提升了系统的性能,而Shuffle过程仍然存在着资源利用率低和分区数据偏斜的问题。本文针对Spark框架中的不足之处,对Spark Shuffle过程中的优化技术进行研究。为了解决分布式数据处理框架Spark中的Shuffle性能问题,本文对资源利用率和均衡分区两方面进行综合考虑,提出了一个Shuffle优化策略DAGP(Dynamic adjustment of granularity and partition strategy)。它包含三个部分:中间数据采样、计算粒度调整和均衡分区策略。首先,本文提出了一种基于重要性的采样算法,在生成采样步长的过程中,对有采样偏向性的key加入重要性参数,使得该步长更容易被此次采样接受,并基于采样结果将出现频次高的key定义为高权重key。其次,本文提出了一种计算粒度调整算法,根据采样数据中键值对的数量特征和集群资源情况,采用改变当前stage分区数目的方式对计算粒度进行调整,减少CPU处于空闲状态的可能性,提高集群的资源利用率。最后,通过分析采样数据对中间数据的分布情况进行预测,对不同类型权重的key进行了差异化处理,提出了均衡分区策略,其中包括针对高权重key的分区算法HWKP(High weight key partitioner)和针对低权重key的分区算法LWKP(Low weight key partitioner),该分区策略基于加权轮询和高效哈希的思想对Shuffle后的数据进行了重新分区,有效减缓了数据偏斜问题,达到负载均衡的目的。最后,为了重用分布计算框架中已有的任务调度和内存管理机制,本文选择将DAGP集成到现有的分布式计算框架中。本文在分布式计算框架Spark下实现了DAGP,验证了重要性采样和计算粒度调整算法的有效性,并通过三组广泛使用的基准测试Word Count、Join和Page Rank来评估DAGP的性能和执行时间。实验结果表明,该策略能有效地缓解大数据量计算中的数据偏斜问题,分区间的数据偏斜减少了25%,并且在基准测试中,显著缩短整个应用程序的处理时间达30%。
其他文献
强化学习是机器学习研究领域的一个重要分支。它通过与环境进行交互获得即时收益,使得期望回报最大化。强化学习根据其产生行动样本的策略与评估的策略是否相同可分为on-policy学习和off-policy学习。在处理强化学习问题时,off-policy方法更通用,能够更广泛的应用于许多实际问题中。近年来,关于off-policy学习方法,大部分学者的研究工作主要集中于off-policy的策略评估问题,
中国自贸区,从性质上来说,与国际法中的Free Trade Zone更相类似,是指在中国境内由政府划定的特定区域,对由境外进入的各类货物采取相关优惠政策,同时采取特殊监管措施的区域。自贸区的建立,为全国带来了新一轮经济增长的同时,也带来了争端解决难题的涌现。现有的纠纷解决方式存在很多不足之处,如诉讼方式的过度使用造成司法资源的浪费,非诉讼中重视仲裁轻视调解,诉讼与非诉讼方式衔接问题等。因此,相关研
我国经济迅猛发展的背后无疑包含着无数劳动者的辛勤付出。但是也要看到,尽管《劳动法》和《劳动合同法》等法律法规实施多年,新司法解释不断出台,现实生活中不遵守劳动法律法规的用工情况仍然存在。用人单位的惩戒权像是一把双刃剑,规范运用则有利于保障生产经营秩序,肆意滥用则对劳动者造成负面影响。然而细数起来,现行劳动法领域中关于用人单位惩戒权的法条规定并不多见,理论研究不够全面深入,实践中因用人单位不规范惩戒
2019年底至今,疫情在全球的爆发彻底改变了我们的生活方式。大量企业在疫情中被迫停工或居家办公,直至2020年年初,中国企业才渐渐开始复工复产。然而,反复的疫情让居家办公、异地办公、线上会议成为了企业工作的日常和未来趋势。经过这一次的重大事件,众多企业都意识到了组织抗风险能力以及敏捷转型的必要性。企业管理者渐渐开始有意识地考虑企业转型以增加组织抗击内外部环境变化的能力。组织正在寻求转型,这就要求员
计算机性能的提升带来了深度神经网络模型的兴起,然而随着模型规模的日益膨胀,研究者们在探索相近参数量下能达到更高性能的模型结构方面投入了大量的精力与成本。神经网络架构搜索致力于使用计算机代替人力自动化的完成这一探索过程,然而由于对网络结构性能评估的困难性以及现有高效模型所使用的权值共享策略的局限性,现有的工作大多根据经验大幅度对搜索空间进行约束以保证高效的获得一个近似解,如何快速且有效的完成对高效神
随着市场竞争的加剧,许多中国制造企业为扩大市场份额,保障生产和满足交期,不惜囤积大量的库存。只关注销售额提高,忽略了库存管理的重要性,即便销售额上升了,带来的利润也会被高库存慢慢吞噬掉。另外,技术的发展不断加快产品升级的速度,这也给企业库存管理带来极大挑战。因此,优化库存管理是当前制造业企业的当务之急。本文的研究对象是一家生产汽车内饰复合材料的民营企业,就面临库存结构不合理、原材料积压、库存周转率
变体飞行器由于在面对不同的飞行任务和飞行环境时,可改变自身结构外形来适应当前任务和环境这一优势,已成为飞行器领域的研究热点,越来越多的国家以及研究学者都向其投入大量精力。而在变体飞行器的外形发生改变时,其气动焦点、机翼面积等参数都会随之变化,原有的控制系统将不再适用,因此需设计一个合理可行的控制系统,以保证飞行器发生变形时能稳定飞行。本文以可变翼展变体飞行器为研究对象,对变体飞行器在翼展变化中气动
为应对人口老龄化,经过长期实践探索,上海市率先提出构建“9073”养老服务格局。在人口老龄化深度发展之下,人们对养老专业化的要求越来越高,养老服务如何满足老人及家属全方位的需求呢?养老体系的规划与发展如何适应新的挑战?如何让老年人更有尊严、更有安全感地生活?本文将研究对象着眼于上海市民办养老机构服务质量,同时,结合服务质量、福利多元主义、需要层次三方面理论,对上海民办养老机构服务质量评价模型进行构
精准扶贫是国家为了实现全面建成小康社会的百年目标而实行的伟大举措,是举全党全社会的力量来帮助贫困地区、尤其是贫困农村地区摆脱贫困现状和面貌的伟大建设。2020年是全面建成小康社会的目标之年,也是脱贫攻坚的收官之年,随着2020年接近尾声之时,全面小康和脱贫攻坚都已经如期完成。回顾脱贫攻坚的奋斗之路,在党和国家的坚强领导下,一批批优秀的驻村干部和队员积极响应国家号召,组成了一个个工作队伍,走进基层农
当代乡村的发展对乡村人居环境的建设提出了更高的要求。时代的快速发展,以村民为主体的农户自建住宅模式遇到了新的挑战,一种建筑师和农户的协同生成的自建住宅设计模式亟须研究。一定乡村地区的自建住宅在适应周边环境的过程中演化出明显的共同特征。本研究在团队早期研究的基础上,通过对目标村落特征的提取与模块的转换,从农户的视角出发,运用算法辅助与模块化的方法搭建一套的自建住宅设计流程平台,给农户参与自建住宅设计