基于Alluxio的数据高可用管理技术的研究与优化

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:happy1072298534go
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着存储硬件成本的不断降低,大数据生态系统的复杂变化,计算框架与存储系统的多样性和异构性发展,基于内存的分布式文件系统,数据库等一系列产品孕育而生,用来整合整个大数据生态系统,更好的服务于外界业务。可用性是评价海量存储系统性能的重要指标之一。本文将从提高海量存储系统可用性的角度出发,研究当前开源的基于内存的虚拟分布式存储系统Alluxio,主要研究Alluxio上关于数据管理机制的可用性优化技术,以此来提高Alluxio与底层存储相结合的海量存储系统在远程环境下的可用性。本文将Alluxio与底层存储结合的海量存储系统的可用性状态作为研究点,结合当前其他分布式文件系统或基于内存的数据库系统的一些可用性技术,分析远程环境下由于网络等不可预估因素形成的底层数据不可访问的数据不可用状态和异步存储下由于异步机制等原因形成的数据不可用现象,基于以上问题,提出了本文的优化策略,主要有两点:一是缓存预取与替换,将需要的数据预先提取保存到Alluxio上,同时增加Alluxio中热数据容量,减轻网络拥塞时的数据传输压力,减少访问底层存储次数,当底层数据不可访问时延长对外服务时间。二是优化异步存储过程,提出结合操作的异步存储优化策略,即当操作明确、具有幂等性且底层有相应计算资源时,可直接利用Alluxio向底层存储发送命令而非数据,减轻传输大量数据带来的网络压力,同时将异步与同步相结合进一步保证持久化数据的可用性。基于上述优化思想,本文提出了以下策略:基于数据块间关联规则的数据预取与替换策略和结合操作的异步存储优化策略。较为完善的解决了上述提出的问题。最后,通过实验进行了相关优化技术的综合分析。根据实验结果,得出基于关联规则的数据预取与替换策略能够在远程场景下进行数据预取,避免由于网络等原因导致的对外业务不可用,同时由于将热数据长久的保留在Alluxio中,降低了应用访问数据的延迟,减少了访问底层存储的次数,缓解了网络高负载时的通信压力,降低整个系统发生宕机情况的故障率,从而提高了系统对外业务的可用性。异步存储策略能够在异步情况下尽可能的保证数据的可用性,减轻网络传输数据的压力,同时能保证数据完整一致性等性能要求,这样既保证了程序要求的性能又保证了数据的可用性。
其他文献
文物是宝贵的历史文化遗产,具有重要的历史与艺术价值,由于老化以及人为破坏等因素,文物的保护工作面临着很多困难。古代壁画作为一类常见的文物,除了常规的保护手段外,还可
在开发基于Web的企业应用系统中,由于模块相似性比较大,导致重复性的编码工作比较多,而通常这些编码工作都是采用复制、粘贴的软件复用方式,造成编码容易出错、维护困难等问题。
支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习方法,具有全局最优、结构简单、推广能力强等优点,因此得到了广泛的研究和应用。但是SVM方法最初
随着移动计算、无线通信技术及GPS等技术的迅速发展,基于位置服务越来越受到重视,因此移动对象位置查询变得可行和必需。在交通网络中,移动对象将更新的位置信息提交给移动对
随着异构多核处理器的快速发展,异构多核系统中的任务调度成为研究热点。目前,适用于普通任务集调度的算法在调度细粒度任务集时,存在处理器负载失衡,处理器空闲时间多,并行性差和
随着移动机器人应用范围的扩大,其工作环境也日益复杂,往往是非结构化的、部分或全部未知的。局部路径规划侧重于使用传感器实时感知环境信息,使其能适应复杂的工作环境,及时有效
近年来,深度学习在计算机视觉,机器翻译,语音识别等领域取得了极大的成功,在多个应用领域上取得了当前的最好成绩。但是这些模型所取得的高精确度主要来源于在训练以及检测时
随着近几年来人工智能的飞速发展,我们越来越想检验一下机器能达到一个什么样的智能水平。为此,国家在2015年启动了“高考答题机器人”的相关项目研究,而自动解答高考作文题
在半导体业界,集成电路SoC (System on Chip,片上系统)成为目前主导的设计技术。SoC通常将微处理器、模拟IP核、数字IP核和存储器(或片外存储控制接口)集成在单一芯片上,通过
随着Internet的迅速发展,用于网络互联的主干链路上的核心路由器的接口速率达到100Gbit/s。这就要求骨干路由器每秒可以转发千万以上的分组,然而分组转发的关键是查找路由表,