面向日志结构化存储的负载均衡数据加载及故障恢复

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:snoopy_wx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在数据泛滥的时代,从电子商务到社交网络等移动互联网技术的应用,用户以前所未有的规模产生了大量的数据。传统的通过增加服务器并采用基于分库分表的方法来解决数据库扩展性问题需要大量的人工维护成本和硬件开销。为了降低开销和分库分表带来的各种问题,业界通常利用新型数据库系统替换原有的系统。其中,基于日志结构合并树存储的数据库系统(例如:OceanBase)被广泛采用,这类系统磁盘上存储的数据块一般呈现全局有序的特征。在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新型数据库系统中,并且长时间加载过程中可能出现存储节点故障或加载进程故障。为了减少总加载时间和故障恢复时间,本文提出一种负载均衡且支持高效故障恢复的数据加载方法。为了支持负载均衡的数据加载,考虑到目标系统默认存储块大小,本文采用一种预计算分区数目方法,这种方法基于目标系统默认存储块大小和加载数据文件大小,同时利用数据在分库分表的系统中导出通常局部有序的特点,选择一些采样块并等间隔选样本来确定分区间边界点,减少选取所有采样块并在每个采样块中头部或随机选样本引起的高开销。为了处理不同的故障类型,加快故障恢复速度,特别是存储节点故障和加载进程故障两种常见的故障类型,本文利用日志结构合并树存储系统的多副本特性减少故障恢复时从远程数据源拉取的数据量,提出基于副本局部故障恢复方式,避免完全重新加载的故障恢复方式。本文主要贡献总结如下:1.提出预计算分区数目和基于部分采样确定分区边界点负载均衡数据加载方法。本文针对日志结构化存储系统存储的表数据按全局有序水平切分为多个固定大小的子表分布在多个存储节点上的特点,采用预计算分区数目和基于等间隔选取样本的部分采样方法来减少采样开销,同时使各个分区相对均衡,实现负载均衡数据格式转换和数据迁移到目标存储系统。2.提出一种基于副本的局部故障恢复的加载方法,减少了故障恢复的时间。由于在分布式环境中可能存在各种类型故障,为了使数据加载流程能够对故障实现自动处理,同时减少故障恢复时间,本文针对日志结构化存储系统多副本的特性,提出一种基于副本局部故障恢复方法,减少发生故障时重新从数据源拉取副本数量,提高故障恢复速度。3.基于Hadoop和开源数据库CEDAR中实验验证负载均衡数据加载及故障恢复方法高效性。通过对比预确定分区数目和预计算分区数目两种方法,验证了本文提出的针对基于日志结构合并树存储系统的预计算分区方法更加高效,通过对比全局采样和部分采样两种方法,验证了本文提出的通过部分采样可以权衡采样开销和精确度。通过对比三种选取样本方式,验证了等间隔选取样本方法更加适合局部有序的数据集。在故障恢复方面,对于存储节点和加载进程故障,通过对比基于重启全局故障恢复和基于副本局部故障恢复两种恢复,验证由于减少从数据源重新拉取恢复副本的数量,基于副本局部故障恢复减少了故障恢复时间。综上所述,本文主要研究了在基于日志结构化存储系统中的数据加载问题。首先,为解决数据加载过程中的负载均衡问题,给出针对存储系统结构特点和加载数据文件局部有序的特点设计的数据分区方案,实现整体负载均衡的数据加载流程;其次,为解决数据加载过程中的故障恢复问题,提出一种结合系统多副本特点的基于副本局部故障恢复方式,减少故障恢复时间;最后,通过实验验证了本文方法的高效性。
其他文献
目的对比左西孟旦和米力农治疗重症心脏瓣膜病患者术后低心排综合征的临床疗效。方法选取2013年7月-2019骨年7月在我院治疗的40例重症心脏瓣膜病术后低心排综合征患者作为主
汉语的词切分问题人们公认的一个难题.本文针对现有的汉语自然语言理解中词切分方法进行分析.提出现有基于词典匹配的切分词方法存在新词问题——词表中没有而待处理文本中出现
对3420型气相色谱仪(双填充柱进样器,FID/TCD检测器)的进样器、色谱柱和气路系统作了改装。改装后的仪器,可用于气体样品至高沸点样品的分析,一台可以完成多种分析任务,已成功地用于化工生产控
研究了石墨炉原子吸收光谱仪自动进样系统误差来源及对测量精密度的影响,对手工配制和自动进样系统配制工作曲线进行了比较,得到相吻合的结果。
社会发展日益迅速,原来传统意义上的以管理为中心的社会治理模式已经不能充分满足社区居民丰富多样的要求。多个社会的不同因素交织在一起,出现了许多需要破解的问题。尤其是在基层社区的治理过程中,更是问题比较多。一方面,社区治理主体职责不清;厘不清楚政府和社会的边界,导致了本是服务居民的事项趋于行政管理化;在治理社区的过程中互动不足,部门与社区的互动回应不足。同时,社区自治能力不足,仅仅依靠社区居委会进行管
[目的]评价腹腔镜胆囊切除术行日间手术(Day Surgery)的可行性、安全性、经济效益和社会效益。[方法]收集2012年8月至2014年11月在我院日间病房行腹腔镜胆囊切除术的300例患
遗传算法是建立在类似生物进化及遗传规律基础上的全局优化搜索方法,本文简要介绍遗传算法的基本原理,并将遗传算法用于紫外光谱数据处理,成功地实现了多元分文科与校正,对于维和
提出了通过改变X射线入射角对粗糙样品表面作小面积成象X光电子能谱(XPS)分析的方法,以识别、消除或减少表面粗糙引起的遮蔽效应,获得比较真实的样品表面元素分布图。以表面粗糙的Ba-K-Bi-O超导
摘 要 城乡规划专业发展至今已经融入了不同的学科方向,建筑学的基础教育在当今不能适应城乡规划学科对于当代社会的需求。本文通过分析建筑设计课程在城乡规划专业教学中存在的问题,引入建筑规划与总体环境设计使教学内容更贴近城乡规划学科教学目标,结合城乡规划专业教学的客观要求对建筑设计的教学模式及教学内容进行了改革探索。  关键词 城乡规划 建筑设计 教学改革  中图分类号:G424 文献标识码:A DOI
溶解度低和镉含量高是米渣副产物中蛋白质资源利用的技术瓶颈。本试验以高镉含量米渣为原料,选用Alcalase 2.4L碱性蛋白酶,利用响应面中心组合试验设计对米渣蛋白质酶解条件