纠删码存储系统的数据一致性研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong503
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据和云存储在经济生活中广泛应用,系统数据量巨大,为减少冗余数据开销并保证数据可靠性和可用性,采用纠删码取代副本已经成为业界一种趋势。数据一致性是纠删码的本质属性,保证了数据可靠性和可用性;数据不一致将导致数据的冗余校验失效,使得数据丢失可靠性,从而不能恢复丢失的数据。因此,保证纠删码的数据一致性是实现纠删码存储系统的关键。为了能够在故障发生后定位不一致的数据并恢复数据一致性,系统需要持久保存数据一致性的变更信息。然而,现有方法存储开销高,或大幅降低存储性能,或成倍增加成本;大数据和云存储系统数据规模大,进一步放大了存储开销总量。本文重点研究纠删码存储系统中低存储开销的数据一致性技术,提出了结合数据异地更新和预写日志技术的新存储模型及事务实现方法,主要工作及贡献如下:  A)提出了一种“写后映射”存储模型AWM(After Write Mapping),结合数据异地更新和预写日志,实现了延迟地址映射,具有存储开销小的优点。其中,数据异地更新到存储设备;同时,预写日志记录更新地址,从而使得这些新写入的数据形成一个逻辑上的日志。当数据更新完成且地址被保存到预写日志后,事务才将提交记录存入预写日志,由此提供了事务原子性。事务提交后,依据预写日志中的地址,事务通过重映射将逻辑日志批量转换为数据,从而避免了传统预写日志读取数据并写入存储设备的开销。  B)提出了一种保证纠删码数据一致性的AWM事务实现方法,该方法引入日志结构存储,实现了组提交技术,并针对Linux系统已有的回刷操作进行了语义增强。使用同步AWM事务的RAID原型具有MD RAID85%的顺序写带宽,单盘上事务带宽占用小于0.5MB/s,事务写入数据量是用户写入数据量的0.2%。在同一硬盘的2~8个Ext4上,语义增强的回刷减少20%~60%回刷数量,提高平均写带宽2%~9%。试验结果表明AWM事务的存储开销小。  C)设计并实现了一个非阻塞高可靠的日志结构存储阵列RALD(Redundancy Arrayof Log-structured Disks),该系统采用了事务日志按副本同时存储到多个日志结构以及事务流水化回刷等多种优化技术。事务流水化回刷技术减少AWM事务中20%~30%回刷数量。在故障测试中,RALD能够同时容忍降级和宕机,没有单点故障。在写密集负载下,RALD比Linux MD RAID增加10%到190%的IOPS; RALD的4KB和64KB顺序写带宽分别是采用写时复制事务Btrfs RAID6的8倍和4倍。试验结果表明RALD保证了纠删码数据一致性且存储开销小,高可靠且具有高性能。
其他文献
基于Linux远程桌面系统的音频应用,不仅是教育、电子政务、军事等领域的基本要求,同时也是满足个人Linux桌面运行环境的要求,它与Linux本地桌面系统音频应用有着巨大的差别。在L
随着化学计算和计算机技术发展,越来越多的软件被开发出来应用于化学计算、分子可视化、分子建模及化学数据库检索等领域,如何有效整合不同的化学软件为用户提供一个既可用于
本文从移动终端的安全问题出发,研究如何通过移动终端安全芯片提高终端系统的安全性,并将文中提出的新思想和国内外先进的研究成果结合起来,实现了完整的移动终端安全芯片解决方
随着互联网的快速发展,深度包检测系统成为了网络中越来越重要的组件。当前,由于深度包检测系统的核心算法的设计缺陷,实际的深度包检测系统往往无法提供线速处理的能力,同时,网络
随着对撞机性能的改进和取数效率的提高,高能物理实验产生的数据量逐年增长,通常一个大型的高能物理实验几年中可获取的数据达到PB甚至EB量级;物理分析就是从如此庞大的数据量
随着互联网技术的发展,新闻视频数据量急剧增长,但是这些网络新闻视频信息凌乱无序,有价值的信息湮没在大量冗余信息中,对其发现和管理变得越来越困难。   为更好地管理和利用
随着微电子技术的不断发展,单芯片内集成计算机系统已经成为可能,片上系统在最近十多年里得到了飞速发展。在片上系统设计中,芯片的性能、面积、功耗、可测试性、兼容性、可靠性
科学数据在科研活动中起到越来越重要的作用,科学数据的共享与服务越来越得到科研人员的重视。在科学数据共享服务中,数据安全及保护技术扮演着非常重要的角色,有力的数据保护手
禽流感是一种高致病性的禽类传染病,近几年内爆发频率越来越高。为了对疫情的可能性和潜在危险性进行风险评估,及时预测、预防疫情的蔓延,保障人民生命安全、保障畜牧业发展和保
在计算机视觉领域中,如人脸识别、视频检索等,所获得的数据往往具有较高的维数。寻找数据的低维表示即维数约简是计算机视觉研究领域中的一个核心问题。最近几年,受生物模型启发