基于HDFS的结构化数据存储和查询方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:poloya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据的“4V”特点:体量大、种类多、价值大以及处理速度快,使得原有的关系型数据库集群已难以容纳海量的结构化数据。因此,基于分布式文件系统的关系型数据库成为研究热点。基于分布式文件系统的数据库是指底层存储采用Hadoop分布式文件系统HDFS,上层采用以大规模并行处理MPP架构作为调度引擎的数据库。HDFS分布式文件系统部署于由多个独立基础设施并通过网络连接的节点组成的集群上,其中一个节点用于存储文件系统的元数据信息,其他节点用来存储文件数据,文件系统中所有的数据通过网络进行传输。目前,基于HDFS的关系型数据库在应用中还存在以下不足:1.未实现跨数据中心的功能,因而难以满足跨数据中心查询的应用需求;2.基于HDFS的数据库存储数据所采用的存储策略,使得属于同一表的数据集中存储于负载较小的节点,这种存取策略将降低遍历数据的并行效率;3.当部署HDFS的集群中存储节点发生变化时,为保证各个节点存储负载的均衡性,需进行节点间的数据迁移,且该过程涉及所有节点,迁移时间过长,因而对数据库的实时查询效率影响较大。针对上述问题,本文基于清华大学信息科学技术国家实验室搭建的Impala集群框架,结合242课题“面向关系型数据的云存储关键技术研究及验证”,从底层分布式文件系统HDFS数据存储角度,对结构化数据库的数据存储、查询以及迁移方法进行了探索性研究,并对基于HDFS的关系型数据库跨数据中心部署方法进行了实际应用测试。本文的主要工作包括:1.跨数据中心的分布式数据库Impala系统部署。将Impala系统进行跨广域网、跨地域的多个数据中心的部署。2.基于环形分布式哈希的数据存储和查询方法研究。将分布式哈希表和CHORD环结构应用于分布式文件系统数据的存储和查询中,将存储节点与数据都进行散列,并根据哈希值进行映射存储,通过对保存的元数据信息进行二分查找来定位所需数据的存储位置。3.基于环形分布式散列的数据迁移方法研究,当部署HDFS文件系统的集群新增存储节点时,其“邻居”节点的部分数据将迁移至新节点;当有存储节点失效时,该节点上存储的数据依据备份恢复到“邻居”节点进行存储。本文的创新点为:1.实现Impala系统的跨数据中心部署,提高了Impala系统的应用范围和对跨域大数据应用的支持;2.提出基于环形分布式哈希的数据存储和查询方法,利用基于分布式哈希以及CHORD环方法进行数据存储和查询,使数据均匀的散列在各个节点上,提高了数据查询的并行性,降低了查询时延;3.提出基于环形分布式散列的数据迁移方法,利用该方法进行数据迁移,减少了数据移动所的涉及节点,节省了迁移的时间,保证了数据库查询的一致性和有效性。本文将所提出的数据存储、查找以及数据迁移的方法进行仿真实验,通过与HDFS分布式文件系统原有的策略进行对比,验证了所提出方法的有效性。
其他文献
研究目的研究2010-2013年广西原发性肝癌疾病负担及经济负担的情况,为卫生行政部门制定相关的卫生政策提供科学依据。材料与方法1、利用“国家卫生统计信息网络直报系统”获取
目前,由于燃油汽车的大量使用造成石油减少和环境污染,已经到了必须加以控制和治理的程度。随着世界各国都在提出走可持续发展的道路,由此引发了以铅酸蓄电池为主要动力源的电动
本文是在长株潭产业转型升级背景下开展的研究。目的在于寻求长株潭产业转型升级与区域内高职院校良性互动发展策略,希望为政府制定更好的职业教育政策,为促进教产之间互动提供
《新闻联播》具有权威、时效、规范、影响力大、内容覆盖面广、语言言简意赅等特性,可以使汉语学习者更好地了解中国,因此它具有了成为对外汉语教学资料的可能性。本文通过建
社会工作督导对于提升被督导者的专业水平、满足服务对象的需求、维持社会工作服务机构的良性运转和推动社会工作专业的发展具有重要的意义。基于本土社会工作督导经验的探索
本文以苏州市为例,通过对地方政府融资平台的设立、定位与职能、运作方式、资本金来源、资金投向、融资方式进行定性分析和统计分析,形成对地方政府融资平台经营现状的全面认识
实训教学是高校办学特色和提高教育教学质量的重要保证,对这种跨时间、空间的教学方式进行有效的管理,是目前要解决的问题。面对日新月异的信息技术发展,网络教学系统必然具
与传统三相电机系统相比,新兴的多相电机系统而且可以很大程度的改善调速系统运行的稳定性以及性能的可靠性。更主要的是,多相电机可以利用低压功率器件来实现电力系统的大功率
大西洋鲑因具有个体大、肉质好、不饱和脂肪酸含量高等优点已被诸多国家引进养殖。但是,传统的网箱养殖模式因易受自然环境影响、对自然资源(土地和水资源)依赖程度高和对环境
流量控制常用于计算机网络中,对网络中的安全访问进行有效的控制,并保障重要业务的带宽。企业用户常使用多网卡提高服务器的吞吐量、避免单点故障,以达到性能与经济成本的平