基于流计算Flink框架的资源调度方法研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:qq602602
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的飞速发展,金融银行业、互联网和物联网等与人们生活联系紧密的行业领域发生了翻天地覆的变化。数据规模迅速扩大,数据计算具有规模性和实时性。在实时计算场景下,Flink流计算框架提供了丰富的算子支持和较好的容错机制,且在资源调度方面做了许多优化,能够对大流量的数据进行实时处理。然而,当面临实时数据流突增的时候,Flink不能根据当前的数据流量进行动态资源调整,从而会导致计算出现瓶颈,无法保证计算结果的实时性。本文针对Flink框架在数据量突增时会出现性能瓶颈的问题设计了一套基于Flink框架的资源调度管理系统,对作业的运行情况进行实时监控,及时发现性能瓶颈进行资源调整,保证数据计算的实时性。该系统主要包括Flink作业监控子系统以及算子资源调度优化子系统。Flink作业监控子系统主要用来实时跟踪作业上各算子的数据输入、输出、作业运行过程中网络缓存使用情况,以及记录算子拓扑关系,为判断算子计算瓶颈提供直接依据。算子资源调度优化子系统是根据收集的监控数据,以及对作业算子的有向无环的拓扑结构进行广度优先搜索,根据Flink作业的反压机制找出性能瓶颈的算子,并对出现性能瓶颈的算子进行优化调度:1)针对Flink在多数据源(如Kafka消息队列)同时消费时引起的Source算子上,数据分区不均匀导致的计算瓶颈问题进行优化,保证数据源(如Kafka分区)在Source算子的均匀分配,减少分配不均导致Source算子的计算瓶颈问题;2)针对非Source算子计算能力不足而引起的性能瓶颈问题进行资源调度,根据监控系统中反映出来的处理能力来调整算子并行度,解决性能瓶颈;3)针对非Source算子在计算过程中出现的数据倾斜导致的性能瓶颈进行优化,设计一套预聚合优化策略,对数据聚合算子进行拆分,进行数据的预聚合处理,降低聚合计算中导致数据倾斜的数据量,并针对算子在多Key场景下的数据倾斜设计了相应的算子资源调度策略,降低数据倾斜对计算性能的影响。最后本文搭建了一套Flink作业运行平台和Flink资源调度的环境,针对Flink出现的各种原因的性能瓶颈问题进行资源调度调整实验,通过一系列实验数据,证明了本文所设计的基于Flink框架的资源调度方法在解决算子瓶颈问题方面有较好的效果,能有效增加系统的吞吐量,保证系统的实时性。
其他文献
本文针对现代远程教育发展的实际情况,从质量控制的思路出发,研究了促进现代远程教育质量提高的途径.在全面考察我国现代远程教育发展状况的基础上,结合先进的质量管理理论和
本文通过分析教育发达国家和地区的状况,论述了学习化社会的特点,并结合我国教育实践,提出了构建我国终身教育体系的原则。
随着我国经济水平的不断提高,在现代建筑工程项目的建设中,构建安全的工程体系具有越来越重要的意义,其不但是保证建筑工程施工安全的基础,也成为国内建筑行业水平进步和安全管理
近年来,随着地方政府债务水平的逐年上升与基础设施建设需求的不断增加,我国开始大力推行PPP模式,这一举措得到了各地方政府的积极响应,社会资本方的参与热情也较为高涨。但
随着声音传播技术的革新与发展,在基于全民阅读列入政府工作协议的政策支持下,当前有声阅读产业发展趋势良好,产业融合速度加快,产业规模也越来越大,有声阅读产业取得了良好
网络已成为我们生活的重要部分,但网络也是一把双刃剑。只有全社会行动起来,加强网络立法、净化网络环境、深化教育改革、净化社会风气,形成学校、家庭、社会的“小三位一体”和
自2003年以来,由国家教育部颁布的《普通高中课程方案和课程标准(实验稿)》已经指导了15年的高中生物课程教学,促进了教育理念的更新,推动了人才培养模式的变革,为我国基础教
因特网和多媒体技术在大学英语教学中的广泛应用,对传统的大学英语教学模式提出了挑战。本文分析了因特网对外语教学模式的影响,进一步在建构主义和语言习得理论的基础上,探
安徽省铜陵市民政局日前召开社会组织参与脱贫攻坚供需服务对接会,全市30余家社会组织参加了会议。会议介绍了本年度社会组织脱贫攻坚行动方案,就脱贫攻坚行动有关问题展开热
目的深入探讨对肿瘤患者实施中医情志护理的临床效果。方法选取我院2014年8月至2015年11月期间收治的50例肿瘤患者作为研究对象,采用电脑随机分组的方式将50例患者分为观察组