基于Spark Streaming的分布式数据流连接优化

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:codeandme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark Streaming是大数据环境下流处理系统中的新秀,它使用有向无环图的方式依照当前操作父子数据集间的依赖关系划分操作执行顺序。但其评价标准过于单一,对于多连接操作只能做出简单的顺序划分,无法结合各条数据流基础信息和数据流间连接关系做出针对性处理,难以找到执行效率较高的连接顺序。同时针对多条数据流连接下的窗口持续查询操作,其采用重复独立计算的方式执行,每次都要根据当前窗口下全部信息重新计算结果,相邻窗口间存在大量冗余计算,整个查询执行效率较低。针对以上问题,本文提出了基于启发式搜索的多数据流连接策略和基于时间戳的中间结果缓存策略。根据数据流集合对应的无向赋权图构建连接树,求解合适的连接顺序,再结合连接树各节点间便于数据存放的优势建立缓存机制,在相近窗口内复用中间结果,减少冗余计算量。本文主要贡献如下:1)基于启发式搜索的多数据流连接策略:通过分析关系型数据库系统和流处理系统中已有的连接技术与图的相关概念特征,将数据流之间的连接关系转化为无向连通图;根据数据流的流速为图中各点赋权,根据相关数据流间中间量的规模为图中各边赋权,分析多流连接代价构建启发函数,提出了一种基于启发式搜索的多数据流连接查询优化策略,通过连接树的方式寻找最为合适的连接顺序;针对流处理中数据持续不断到来的特性,提出一种连接树权值标准,在构建树的同时计算树权值;依照新时段数据流基础特征,周期性更新点边权值,根据评价函数重建连接树,比对新旧连接树权值选择更优解,实现连接树的动态化,以保证连接操作的持续高效。2)基于时间戳的中间结果缓存策略:在上一点的基础上,借助连接树各个父节点上可以存放计算结果的优势,结合滑动窗口技术和Spark平台弹性分布式数据集存储特性,设计出一种基于时间戳的中间结果缓存策略,进一步降低了连接操作执行过程中的计算量。并依照此缓存策略下多数据流连接操作计算规律,提出了一种基于时间戳的缓存回收机制,使计算过程更加准确高效。3)实验分析:基于Kafka消息队列和Spark Streaming平台,通过Kafka生产者API生成多个测试数据流,Spark Streaming平台作为消费者接收和处理数据,执行数据流连接操作,验证前两点中策略的可行性。从实验结果中可以看出,本文所提出的多数据流连接策略和中间结果缓存策略可以有效降低多数据流连接操作执行时间。
其他文献
微存量传感检测技术是利用传感元件对化学微量试剂存量进行精确实时检测与监控的技术。目前对于化学试剂微存量检测通常利用电学元件,但电学电路较为复杂以及抗电磁干扰能力
分布式内存计算平台Spark是大数据处理的最新技术进展。内存资源是Spark平台的核心资源,合理的内存配置能够为Spark负载的运行提供性能保障。Spark内存配置是指依据负载特征
在国有专业银行向国有商业银行转轨中,如何建立完备的内控机制,打下扎实的管理基础,形成良好社会形象,尤其是如何树立“铁帐本、铁算盘、铁规章”信誉,是银行面临的一项重要
会议
随着通信技术和云存储技术的飞速发展,大量的文件开始存储在云端,人们可以方便地存取及更新云文件。但是文件泄漏事件频繁发生,尤其是企业或组织内部机密文件的泄漏会造成财
中国正面临世界经济增长缓慢、国际金融危机等诸多不利因素,然而中国经济社会发展不但没有受国际市场的影响而拖慢前进的步伐,反而主动适应国际环境,通过不断地开拓创新,让中
前向多翼离心风机因其尺寸小,噪声低等特点被广泛应用在办公环境和家居生活的空调系统中。为满足环保和能耗要求,离心风机需要向高性能、低噪声方向发展。多翼离心风机内部空气流动规律相对复杂,而其与风机的气动性能和声学性能有关。本文开展基于翼型叶片的多翼离心风机内部流动的数值模拟和实验研究,主要分析变半径蜗舌对风机内部流动规律、整机气动性能和声学性能的影响。(1)基于翼型叶片多翼离心风机的稳态数值模拟和实验
玉米是我国种植面积最大最广泛的农作物之一,玉米叶片大小、株高等性状决定其种群密度与产量。玉米叶片大小的调控是一个复杂的过程,影响玉米叶片大小变化的因素有很多,例如叶片形成前茎顶端分生组织的发育、叶片极性的建立以及叶片发育时期叶脉的形成、叶片细胞的分裂等,这些影响因素每种都受一系列的复杂网络所控制,这些复杂的网络可以维持叶片的正常发育,确保玉米可以获得足够的叶面积,以保证叶片在玉米的生命活动中正常的
近年来,随着铁路运输业的高速发展,列车轴重、载重及车速都大幅度提升,轮轨之间的磨擦问题愈加严重,钢轨不可避免会产生疲劳裂纹,剥落,揭盖等损伤,从而导致断轨、脱轨等安全
随着我国资本市场监管的不断完善以及投资者对上市公司盈余结构和质量的关注,近年来,以调整核心盈余为特征的分类转移盈余管理成为诸多上市公司盈余管理的重要方式。上市公司
在教育学和心理学领域,自我效能感和学习策略是两个流行的话题。本文在前人研究的基础上,描述了独立院校非英语专业新生的英语效能感水平和英语学习策略使用现状,并分析自我