Hive事务表碎片版本文件整合系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:huanyu2121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网时代的到来,人们每天产生的数据越来越多。使用传统的关系型数据库做ELT(Extract,Load,Transform)以提供决策支持已经显得力不从心。基于MapReduce的数据仓库Hive的出现为这一问题提供了一种解决思路。Hive从0.14版本开始支持快照隔离级别的事务操作。由于Hive提供了快照隔离级别的事务操作支持,当Hive接入流式数据或者在高并发场景中有频繁的DML操作,会导致底层HDFS中出现过多的快照文件。过多的快照文件不仅占用了过大的存储空间,对HDFS的NameNode产生压力,而且也严重影响了Hive事务表的读性能。本文从Hive事务表使用过程中遇到的小文件数量过多的问题出发,设计并实现了一套独立于数据仓库的整合系统。本文中设计并实现的独立整合系统具备以下主要功能:1.系统根据事务表的统计信息,对事务表进行全整合(Major compact)或者部分整合(Minor compact),为Hive数据仓库的事务表提供了基本的小文件整合功能。整合系统在此基础上,支持用户通过WebUI手动触发对事务表的整合操作,比原有的只能通过命令行的方式更加易于使用。2.系统提供了自动或人工收集库内事务表的统计信息的功能,通过收集统计信息,数据库管理员可以获知库内事务表的基本情况,判断整合系统的运行情况或者数据是否发生了倾斜。3.系统提供了 WebUI,支持了数据库管理员对于整合黑名单,整合队列和统计信息的管理,方便了管理员排查问题。相比于原先只能通过命令行操作的方式,更加易于使用。在开启安全服务的集群中,整合系统通过CAS中心登录和权限检查保证了 WebUI上操作的合法性。4.系统通过主备(Active-Standby)架构的设计,提高了其可用性。本文通过实验证明了,在开启了独立整合服务的Hive集群中,整合系统能有效地整合碎片版本文件较多的事务表。本文通过使用了 TPC-DS Benchmark中的若干查询SQL,对具有不同数量碎片版本文件的事务表执行查询操作。实验证明,相较于没有经过整合的事务表,整合后的事务表查询性能能得到有效的提升。在技术选型上,系统采用Java语言实现,服务间通信使用了 Thrift框架。WebUI实现上使用了 Jetty容器,Servlet以及Velocity模板引擎。统计信息元数据存储于Hive数仓的MetaStore中,事务表文件存储于HDFS中,整合任务由MapReduce完成。
其他文献
《庄子》是道家学派经典著作,是战国时期庄子及其后学所著,反映了庄子独特的哲学思想和文学风格,对后世影响巨大。自《庄子》文本产生后,《庄子》图也应运而生,相较于《诗经》图与《山海经》图,《庄子》图的数量虽然不多,但无论是文献记载中还是保存至今的《庄子》图都对《庄子》研究有着十分重要的意义,不仅可以帮助我们研究《庄子》在不同时代的接受状况,也可以为研究者在《庄子》原文本的基础上提供一个更为全面、立体的
为了解决交通拥堵和大气污染问题,上海、北京、广州等城市相继出台了汽车限购政策,通过行政手段限制发放汽车牌照,从而控制机动车的保有量,以期解决城市交通拥堵的难题。这项政策的出台,在实践中引发了很多争论,本文从学理上对汽车限购的合法性和正当性与否进行论证分析。论文主要分为三章。第一章“汽车限购引发的争论”分为两个部分。首先从限购的依据、方式、限购令的内容方面分析了各地汽车限购的现状,即:目前全国有七个
随着互联网的快速发展,业务系统越来越复杂,其可用性也越来越重要,系统出现故障没有得到及时的发现和修复会产生很大的经济损失,现在,很多公司都越来越重视核心业务系统的状态监测,及时的发现系统运行中的问题,做出快速的响应。特别的,在互联网金融领域,业务系统涉及到的是资金结算,其可用性和结算的细节都非常重要,一旦系统出现问题都可能是致命的,系统运行的过程中需要有详细的日志记录、收集、处理和存储,某个模块出
现行《中华人民共和国土地管理法》(以下简称《土地管理法》)规定的土地征收补偿项目中,农村土地承包经营权并未作为单独的征收补偿项目,土地承包经营权人亦未被纳入到征收关系的主体范围之内,只是作为集体成员的一份子参与土地补偿款的分配,而未能获得该权利本身的补偿,使得现有的征地补偿难以弥补失地承包农户的权利损失,严重侵害其财产权益,由此引发的征地矛盾难以调和。本文从土地承包经营权于集体土地征收中的补偿地位
在当代,旅游已成为提高人们生活质量的重要方式,满足人们旅游休闲需求的旅游业得到了快速发展。在旅游者选择预订酒店的过程中,网络口碑成为了影响旅游者预订决策的重要因素,但同时,网络传播环境以及网络信息的纷繁复杂性也给旅游者的预订决策带来了更多的不确定性。本文采用问卷调查的形式,针对网络口碑对旅游者预订决策的影响因素进行调查,对三个维度的影响因素,以及根据酒店行业特征提出影响作用的调节变量,进行总体分析
在现代企业发展中,人力资源管理已经成为公司管理的一项重要内容,而薪酬管理更在企业发展中发挥着越来越重要的作用;薪酬管理是人力资源不可或缺的一部分。它关乎企业人力资源管理、企业整体绩效,因此受到了企业高层管理者以及所有员工的高度重视。通过灵活有效薪酬制度不仅能够保持员工的稳定性,更有利于激发员工,使其更好的融入企业发展中。但是由于中国企业发展的现实状况,大家针对怎样实施人力资源管理特别是薪酬管理尚处
台风灾害作为我国沿海地区的常见灾害之一,尽管能带来丰沛的雨水,但由此造成的人员伤亡和财产损失不容小觑。2018年3月,国家应急管理部门依照第十三届全国人民代表大会第一次会议批准的机构改革方案正式成立。在这种情况下,政府和人们对灾害的认识日益深刻,深度研究台风灾害并对沿海地区加强保护措施迫在眉睫,然而我国对于应急管理中抗逆力的研究仍较为缺乏,学者们对于抗逆力的研究较多停留在个体心理抗逆力的研究,传统
我国居民的生活水平不断提高,必定伴随着对医疗资源消费量的提高,进而对医疗资源的需求量不断扩大,但由于我国的医疗资源紧缺且分布极不均衡,因此如何有效的分配医疗资源成为全社会关注的问题。在线医疗社区作为医疗行业与互联网结合的创新模式,为解决这个问题提供了可能。通过在线医疗社区平台,患者可以查询到全国各个城市各个医院中的医生详情,并通过互联平台提供的方式与医生进行互动。医患双方互动的过程中,医生可以向患
中亚造山带位于西伯利亚和华北、塔里木、东欧克拉通之间。人们普遍认为,在中元古代晚期至晚古生代期间,古亚洲洋的俯冲和多个岛弧、增生楔、海岛和海山的碰撞形成了这一造山带。我国新疆境内的西天山造山带位于中亚造山带的西南缘,对其构造演化的认识是理解整个中亚造山带的造山过程及其动力学的关键。伊犁地块是夹持于西天山造山带中的一个具有前寒武纪基底的大陆块体,是哈萨克斯坦大陆向东的延伸。在哈萨克斯坦-伊犁块体的内
背景:ANCA相关性肾炎的形态学以肾小球节段性袢坏死伴新月体形成、肾小球无或仅少量免疫球蛋白沉积为特征。目前国际上将AAGN肾脏病变分为四型:局灶型、新月体型、混合型和硬化型。如果50%以上肾小球有新月体形成则称之为新月体型AAGN。新月体型AAGN发病迅速,临床通常表现为急进性肾功能减退,需要强化免疫抑制治疗甚至是血浆置换治疗。但由于新月体大小和比例不一、正常肾小球及肾小球硬化比例不一、肾小管间