基于Spark Streaming的分布式数据流连接优化

来源 :北京工业大学 | 被引量 : 3次 | 上传用户：codeandme

【摘要】

：

Spark Streaming是大数据环境下流处理系统中的新秀,它使用有向无环图的方式依照当前操作父子数据集间的依赖关系划分操作执行顺序。但其评价标准过于单一,对于多连接操作只

【作者】

：

陈志明

【出处】

：

北京工业大学

【发表日期】

：

2018年01期

【关键词】

：

启发式搜索数据流无向赋权图连接树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Spark Streaming是大数据环境下流处理系统中的新秀,它使用有向无环图的方式依照当前操作父子数据集间的依赖关系划分操作执行顺序。但其评价标准过于单一,对于多连接操作只能做出简单的顺序划分,无法结合各条数据流基础信息和数据流间连接关系做出针对性处理,难以找到执行效率较高的连接顺序。同时针对多条数据流连接下的窗口持续查询操作,其采用重复独立计算的方式执行,每次都要根据当前窗口下全部信息重新计算结果,相邻窗口间存在大量冗余计算,整个查询执行效率较低。针对以上问题,本文提出了基于启发式搜索的多数据流连接策略和基于时间戳的中间结果缓存策略。根据数据流集合对应的无向赋权图构建连接树,求解合适的连接顺序,再结合连接树各节点间便于数据存放的优势建立缓存机制,在相近窗口内复用中间结果,减少冗余计算量。本文主要贡献如下:1)基于启发式搜索的多数据流连接策略:通过分析关系型数据库系统和流处理系统中已有的连接技术与图的相关概念特征,将数据流之间的连接关系转化为无向连通图;根据数据流的流速为图中各点赋权,根据相关数据流间中间量的规模为图中各边赋权,分析多流连接代价构建启发函数,提出了一种基于启发式搜索的多数据流连接查询优化策略,通过连接树的方式寻找最为合适的连接顺序;针对流处理中数据持续不断到来的特性,提出一种连接树权值标准,在构建树的同时计算树权值;依照新时段数据流基础特征,周期性更新点边权值,根据评价函数重建连接树,比对新旧连接树权值选择更优解,实现连接树的动态化,以保证连接操作的持续高效。2)基于时间戳的中间结果缓存策略:在上一点的基础上,借助连接树各个父节点上可以存放计算结果的优势,结合滑动窗口技术和Spark平台弹性分布式数据集存储特性,设计出一种基于时间戳的中间结果缓存策略,进一步降低了连接操作执行过程中的计算量。并依照此缓存策略下多数据流连接操作计算规律,提出了一种基于时间戳的缓存回收机制,使计算过程更加准确高效。3)实验分析:基于Kafka消息队列和Spark Streaming平台,通过Kafka生产者API生成多个测试数据流,Spark Streaming平台作为消费者接收和处理数据,执行数据流连接操作,验证前两点中策略的可行性。从实验结果中可以看出,本文所提出的多数据流连接策略和中间结果缓存策略可以有效降低多数据流连接操作执行时间。

其他文献

光纤光栅化学试剂微存量传感器设计与仿真

微存量传感检测技术是利用传感元件对化学微量试剂存量进行精确实时检测与监控的技术。目前对于化学试剂微存量检测通常利用电学元件,但电学电路较为复杂以及抗电磁干扰能力

学位

光纤光栅压力传感器微存量检测称重系统

负载特征驱动的Spark内存配置关键技术研究

分布式内存计算平台Spark是大数据处理的最新技术进展。内存资源是Spark平台的核心资源,合理的内存配置能够为Spark负载的运行提供性能保障。Spark内存配置是指依据负载特征

学位

大数据分布式内存计算平台Spark内存配置机器学习

关于银行树立“三铁”信誉浅议

在国有专业银行向国有商业银行转轨中,如何建立完备的内控机制,打下扎实的管理基础,形成良好社会形象,尤其是如何树立“铁帐本、铁算盘、铁规章”信誉,是银行面临的一项重要

会议

基于Web的无插件安全文件存储系统研究与实现

随着通信技术和云存储技术的飞速发展,大量的文件开始存储在云端,人们可以方便地存取及更新云文件。但是文件泄漏事件频繁发生,尤其是企业或组织内部机密文件的泄漏会造成财

学位

安全存储文件共享访问策略IBE无插件

基于三阶段DEA模型的中国省际要素投入结构效率评价研究

中国正面临世界经济增长缓慢、国际金融危机等诸多不利因素,然而中国经济社会发展不但没有受国际市场的影响而拖慢前进的步伐,反而主动适应国际环境,通过不断地开拓创新,让中

学位

要素投入结构生产效率效率评价指标三阶段DEA

基于翼型叶片前向多翼离心通风机内部流动特性及噪声分析

前向多翼离心风机因其尺寸小,噪声低等特点被广泛应用在办公环境和家居生活的空调系统中。为满足环保和能耗要求,离心风机需要向高性能、低噪声方向发展。多翼离心风机内部空气流动规律相对复杂,而其与风机的气动性能和声学性能有关。本文开展基于翼型叶片的多翼离心风机内部流动的数值模拟和实验研究,主要分析变半径蜗舌对风机内部流动规律、整机气动性能和声学性能的影响。(1)基于翼型叶片多翼离心风机的稳态数值模拟和实验

学位

前向多翼离心通风机翼型叶片数值模拟变蜗舌半径气动性能气动噪声

玉米窄叶突变体zy1的鉴定

玉米是我国种植面积最大最广泛的农作物之一,玉米叶片大小、株高等性状决定其种群密度与产量。玉米叶片大小的调控是一个复杂的过程,影响玉米叶片大小变化的因素有很多,例如叶片形成前茎顶端分生组织的发育、叶片极性的建立以及叶片发育时期叶脉的形成、叶片细胞的分裂等,这些影响因素每种都受一系列的复杂网络所控制,这些复杂的网络可以维持叶片的正常发育,确保玉米可以获得足够的叶面积,以保证叶片在玉米的生命活动中正常的

学位

玉米窄叶突变体zy1表型鉴定分子鉴定生物信息学

轨道缺陷的非线性检测方法研究

近年来,随着铁路运输业的高速发展,列车轴重、载重及车速都大幅度提升,轮轨之间的磨擦问题愈加严重,钢轨不可避免会产生疲劳裂纹,剥落,揭盖等损伤,从而导致断轨、脱轨等安全

学位

钢轨轨底角裂纹超声波非线性混频

期望绩效反馈、分析师关注与上市公司分类转移盈余管理

随着我国资本市场监管的不断完善以及投资者对上市公司盈余结构和质量的关注,近年来,以调整核心盈余为特征的分类转移盈余管理成为诸多上市公司盈余管理的重要方式。上市公司

学位

期望绩效反馈分类转移盈余管理期望绩效反馈落差期望绩效反馈顺差分析师关注

大学生英语学习效能感、语言学习策略和英语学业成就关系的实证研究

在教育学和心理学领域,自我效能感和学习策略是两个流行的话题。本文在前人研究的基础上,描述了独立院校非英语专业新生的英语效能感水平和英语学习策略使用现状,并分析自我

学位

英语学习自我效能感语言学习策略英语成绩关系

基于Spark Streaming的分布式数据流连接优化

其他学术论文