基于成本的流计算语言优化模型研究

被引量 : 3次 | 上传用户:divide2058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,在分布式系统中,业界和学术界对数据处理的实时性要求越来越高。离线计算对于批量处理虽然有着较大的优势,但对于流式数据的处理却表现的能力不足。近年来,出现了一系列的实时处理框架,包括Storm、Spark Streaming、S4、StreamBase等。然而,对基于这些框架的查询优化,目前在业界和学术界却鲜有研究。因此,本文提出了一个基于实时处理框架Storm的成本优化模型,用以提高在Storm上执行类SQL查询的处理效率。本文的研究重点是根据流式计算框架Storm的特点,提出一个基于成本的针对流式计算语言的优化模型。由于Storm是全内存操作,因此在计算其执行成本时,只考虑CPU的计算成本和节点间通信所带来的成本。本文针对连接查询和聚合查询两种操作分别定义了成本计算模型。对于连接查询采用基于哈希的两个数据流的连接算法。多连接操作中影响CPU成本的主要因素包括创建哈希的时间、左右数据流窗口中的元组数、算子选择率、获取一个元组花费的CPU时间等;影响通信成本的主要因素有节点的数据产生速率和算子的选择率。而对于聚合操作,影响成本的因素主要有窗口数据量的大小、窗口独立分组数以及元组在分组中分布偏移率。在本论文中,对流式查询语言、SQL的解析流程以及多连接查询优化的方法进行了调研,对基于成本的优化方式进行了深入研究。首先,根据流式数据的特点,设计能够处理流式数据的查询语言—SSQL,其与标准SQL语句相类似。滑动窗口的设计,使其能够较好地处理流式数据。其次,根据Storm的特性,抽象出一些物理算子,保证SSQL查询语句编译后能生成与Storm适配的物理查询计划。再次,完成对SSQL语言的解析,包括将SSQL语句解析为抽象语法树、生成逻辑查询计划、物理查询计划、提交Storm执行等多个步骤。在生成物理查询计划后,依据定义的成本模型,对每个查询计划进行成本计算,得到成本最小的查询计划,作为最终的执行计划,提交给Storm执行,将最后得到的结果返回给用户。最后,本文对定义的成本模型进行性能测试。设定了四个不同的查询任务和三个不同大小的滑动窗口,将每个任务在每个窗口上的执行时间与未优化的执行计划,以及查询引擎Squall中的优化器进行对比。实验表明,与Squall相比,本文优化器的性能平均提升了10.99%。
其他文献
面向移动端的社会化网络服务(SNS)具有良好的市场前景,其中图片分享类应用方兴未艾,是移动应用市场最受用户青睐的服务形式之一。如今,国内移动应用逐渐走出粗放型的发展阶段
随着计算机需求的变化及发展,计算机软件承担了越来越多的功能,软件规模有不断变大趋势,软件复杂度也不断变高,为计算机系统的安全性和可靠性带来新的挑战。实时系统是一种能
随着我国GDP的高速发展,我国已经成为世界上举足轻重的贸易大国,近十几年的对外贸易额一直保持着高速稳定地发展。服务于国际贸易的国际货运代理业也取得了前所未有的发展,国
照明,是工业生产和日常生活中必不可少的话题,LED照明作为新型环保的照明方式,越来越受到大众欢迎。LED灯对电源要求很高,和直接用工频电源的白炽灯不一样,需要有专门的驱动
<正> 别名:白鸡、连及草。原植物:为兰科白芨属多年生草本植物白芨Bletilla striata(Thunb.)Reichb.f. 植物形态:全株高30—60厘米。地下根茎肉质,呈不规则块状,有时为不规则
期刊
目的探讨实施前馈控制措施对医院消毒供应中心洗消合格率及骨科手术患者切口感染率的影响。方法比较我院消毒供应中心实施前馈控制措施前后,洗消合格率以及骨科手术患者切口
近年来,建筑和汽车产业的飞速发展,停车难和乱停车的现象出现在了各级城市中,而立体停车库作为了缓解城市停车难问题的新途径、新措施在很多国家得到了迅速的发展。并且立体
依据美术作品的客体性质和我国保护作品完整权的立法旨意,侵害美术作品完整权的构成件应当为"存在改动或者其他侵害行为,且改动危及作品核心表达或者其他侵害行为导致公众误解
目的 探讨影响重型颅脑损伤患者预后的某些高危因素。方法 回顾性分析我院中心ICU 1997年元月~ 2 0 0 3年元月收治的 49例重型颅脑损伤病人的临床资料 ,观察早期血压、血糖
镁合金轮毂压铸成形模具较为复杂,以国内某轮毂厂家镁合金轮毂铸件为例,阐述了利用Pro/E和基于该平台二次开发的智能专家设计系统进行压铸模设计的一般步骤和方法。实践证明,