面向Easy Wrangling的数据转换脚本执行引擎的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hnlh007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自助式的数据准备技术提供了一种基于图形化的交互式数据转换处理工具,能够根据用户在图形化界面中的鼠标点选等交互操作,推测用户的数据转换意图并生成数据转换操作,避免了对数据转换逻辑的程序编码。面向大数据的自助式数据准备技术具有处理海量数据的能力,能够将用户的交互操作转换为针对大规模数据的数据处理逻辑,并保证相关处理逻辑的伸缩性和效率,实现高效可扩展的数据处理。EasyWrangling是一个面向大数据的自助式数据准备工具,其主要由前端图形化界面程序和后端执行引擎两个部分构成。本文工作主要针对后端执行引擎进行。后端引擎通过对数据转换脚本进行解析和优化并生成对应的处理逻辑,对存储在Hadoop平台上的海量数据进行处理。本文主要对将由用户交互所生成的数据操作逻辑应用于处理大规模数据的问题以及EasyWrangling中后端执行引擎的设计实现进行了相关的研究。主要工作包括:1.形式化地定义了面向大数据的自助式数据准备技术中所使用的数据模型以及针对数据模型的数据转换操作。设计了声明式的数据转换语言Wran-gling DSL,用于描述用户在图形化交互界面中生成的数据转换操作。基于MapReduce计算模型,对面向大数据的自助式数据准备技术中的数据操作进行了设计和实现。2.设计并实现了基于Wrangling DSL数据转换语言的脚本执行引擎原型系统,能够将数据转换脚本转换为Hadoop MapReduce分布式计算平台上的MapReduce上的程序。3.针对单个数据转换脚本执行和多个数据转换脚本执行提出了优化方案来优化执行时的时空效率。通过实验检验了系统的伸缩性和性能,并对两种数据转换脚本执行优化方案进行了实验验证,印证了方案的可行性和有效性。
其他文献
本文在前人研究的基础上建立了斜井抽油井三维杆柱力学快速求解模型。运用材料力学原理推导了斜井有杆泵抽油情况下的杆柱受力模型;通过流体力学方法推导了液体和杆柱作用受
为了研究水泥土无侧限压缩下的力学性质以及内部破坏规律,本文将声发射技术引入水泥土的损伤研究中,通过研究无侧限压缩下的水泥土的声发射性能与力学性质,建立损伤本构模型
谷氨酸能和GABA(中文为γ-氨基丁酸)能神经元是小鼠的内侧前庭神经核的主要神经元类型。在本课题的研究中,通过光遗传学的技术手段,我们分别特异性地激活了小鼠的单侧前庭神经核内的谷氨酸能神经元(VGlu T2+)和GABA能神经元(GAD2+),评估了小鼠的前庭神经核所发出的谷氨酸能和GABA能的神经通路的功能。在光遗传学刺激的实验过程中,我们发现光遗传学激活前庭神经核-VGlu T2+神经元时,小
随着现代科学的不断发展,科研合作已然成为科学研究的主流方式。科研合作的表现形式主要有两种,一种是论文合著,另一种则是科研项目合作。本文主要针对科研人员之间的项目合
壁面摩擦力的测量在空气动力学领域有着非常重要的意义。剪切敏感液晶技术是一种非接触式全局表面摩擦应力直接测量方法。剪切敏感液晶具有对壁面摩擦力矢量敏感的特性,当白
取向的有机半导体材料具有很多优异的特性,如高效的电荷传输性能以及各向异性的发射和吸收特性。通过溶液加工的方法以及利用取向聚合物基底进行附生结晶的手段得到各向异性
异恶草酮由于具有杀草谱广、超高活性和高选择性等特点,被广泛用于大豆田防除阔叶杂草和禾本科杂草。但是其在土壤中半衰期较长、降解缓慢,对土壤微生物群落结构及功能微生物
本文以沉积岩石学、储层地质学、测井地质学、石油地质学等理论为基础,运用详细的野外剖面观察、地层横向追踪与对比、典型沉积剖面实测、系统取样和室内实验分析等方法,对川
本文采用植物化学方法来制备了银纳米颗粒(Ag-NPs),以此为基础制备了一种新型电化学传感器,用于检测水中的亚硝酸根离子(NO2-)。首先,使用龙眼种子的水溶液提取物作为稳定剂
物质的光谱中隐含着物质的多种信息,可以从分子水平揭示物质的结构。化学计量学方法是将光谱分析和数学相关方法结合起来的一门综合学科,其与模式识别分析方法相结合催生出多