大数据平台的自助数据提取系统

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:o8o8kid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,互联网数据正在快速增加并将持续增长,这使得大规模数据的提取分析处理成为企业关注的热点问题。在没有自助数据提取工具且业务量激增的情况下,时间和人力成本成为了业务拓展的限制因素。因此,设计高效的自助数据提取系统对企业的发展是至关重要的。本文采用Hive作为数据仓库解决方案。然而,在海量数据的并行处理过程中,关联查询的连接操作产生的数据网络传输代价成为了性能瓶颈。因此,改善Hive中的关联查询效率对于提高大数据平台的自助数据提取系统的性能具有重要作用。本文从用户的角度提出了一种提高Hive中关联查询效率的创新方法,即“学习查询”架构。用户仅需在可视化操作界面上进行配置,“学习查询”架构即可生成最佳查询计划。本文主要的研究内容和研究成果如下:1)设计查询开销预测模型进行查询执行时间的预测,预测结果作为一项参考标准,用于“学习查询”架构进行最优查询计划的选择和长时间查询任务的及时调整。本文采用深度学习技术LSTM进行查询开销的预测,基于前人工作进行改进,设计了更适用于大数据环境下Hive查询的开销预测模型,并通过实验分析比较,验证了改进模型的有效性。2)在“学习查询”架构中,本文提出了一种基于图的SQL生成模型,用于将用户的配置数据转换为基于Hive的查询计划,并结合查询开销预测模型选取最优的查询计划。通过实验,验证了本文提出的“学习查询”架构的有效性,能显著提高Hive中的关联查询效率。3)在“学习查询”架构的基础上,设计并实现了完善的自助数据提取系统。系统根据用户的配置数据自动生成定时数据提取任务。系统还提供了数据权限管理、日志监控、任务管理、审核管理以及临时表管理等其他功能模块,以实现数据提取任务的自动化管理。
其他文献
企业实行专业化管理后,面临基层单位点多面广的实际情况,针对基层执行力和落实不到位现象,通过分析存在问题,查找原因,制定有效措施,增强基层班组执行力建设,从而达到自主、
复合材料层压板铺层优化设计对于提高飞机结构承载能力至关重要。本文基于遗传算法和随机正态分布优化算法,以轴压复合材料层压板屈曲荷载为目标函数,开展铺层顺序优化设计。
<正>每至夏秋时节,一些人喜欢到海滨、河滩、沙地做手足沙浴健身活动。沙浴实际上是一种集多种疗法于一体的物理疗法。做沙浴时,充足的紫外线起到了光疗作用;灼热的细沙是很
不忘初心、牢记使命,就要坚决反对形式主义、官僚主义。而当前变异的形式主义、官僚主义更加隐秘化、常规化,主要表现在懒政、乱政、虚政、弱政和忙政五个方面。其背后的原因
在当今市场经济为主导的社会中,人员的流动是相当活跃的。这种流动既有人员的流进也有人员的流出。而人员的流出,它对组织的影响是难于预料的。从组织的角度来看,就意味着在雇员
作为电影美学的一个重要部分,电影的空间美学形态是指电影艺术中关于电影空间的艺术创作手法。电影空间美学形态的演进一直伴随着电影艺术自身的不断发展与流变,影响着电影艺
园林生态城市是现代城市可持续发展的理想模式,它是运用美学原理、景观学原理和生态学原理,综合研究社会一经济一自然复合生态系统,并采用园林工程、生态工程、社会工程和系
小学思想品德课程是以儿童社会生活为基础,以促进学生良好品德形成和社会性发展为目标的一门综合课程。在课堂教学中,教师必须要立足小学生的生理和心理特点,有的放矢地开展
含腈废水是一类重要的化工废水,往往具有有机污染物浓度高、含盐量大、毒性强和可生化性差等特点,是目前较难处理的化工废水。氟化工企业生产过程中产生的乙腈废水又不同于通常
<正>墨旱莲又名旱莲草,为菊科植物鳢肠的全草,始载于《唐本草》,原名"鳢肠",每年夏、秋季开花时采割全草,除净泥沙,晒干或阴干即可入药,其性凉,味甘酸,入肝、肾经,具有补肾益
期刊