面向分布式内存计算的缓存数据管理系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jason008_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对海量数据,利用图计算或机器学习等具有迭代特征的复杂应用对其进行处理很常见。通过在迭代之间共享缓存数据,典型的分布式内存计算系统如Spark极大地提升了迭代程序处理的速度,在业界使用广泛。然而,在处理的数据量较大时缓存数据无法全部放入内存,需要对缓存数据进行管理。迭代后期再次使用被置换的数据时需要进行重获,此时引入的重获开销影响了性能。传统的置换策略如LRU或FIFO没有考虑到缓存数据重获开销之间存在差异,因而无法保证应用运行过程中整体的重获开销最小。实验发现,在分布式内存计算系统中,缓存数据的重获开销间存在着明显的差异。因此提出并在Spark上实现了一种考虑了重获开销的缓存数据管理系统,来保证数据置换带来的影响最小。首先,依据分布式系统中应用待执行的逻辑是已知的、数据之间有联系的特点,对执行逻辑进行了分析得出了缓存数据之间的依赖关系;然后,定义了重获开销表征置换发生后重获缓存数据所需的代价,定义了重用度表征缓存数据在程序后期再次使用到的次数,在执行程序时实时收集信息并计算这两个指标;最后,设计了置换策略,计算出缓存数据经重用度加权后的单位大小重获开销值,并维护出置换顺序,保证了在置换发生后对应用引入的额外开销最小。在相同的实验环境下,将考虑了重获开销的缓存数据管理系统与Spark中默认的管理系统进行了对比。实验结果表明,考虑了重获开销的缓存数据管理系统在内存空间不足时,因缓存数据置换带来的额外开销显著减少,应用的整体运行时间可以减少30%至50%。
其他文献
随着社会城市化的发展,数字城市对城市发展的促进作用也越来越明显,而三维建模是数字城市系统的基础。大规模城市建模往往需要投入大量的人力、物力和财力。高效率、大批量、
BLAS(Basic Linear Algebra Subprograms)定义了一组基本的矩阵和向量的操作,包括各种矩阵乘法和矩阵向量乘法,在许多领域有广泛的应用。现在的GPU已经发展为一种多核,多线程
数字图像具有形象、生动和直观等优点,己成为信息表达的主流方式之一,但在传输过程中也存在着诸多的安全隐患。因此,数字图像信息的安全问题己成为人们关注的焦点之一,研究图
现代汉语副词用法自动识别是面向自然语言处理的现代汉语副词知识库研究的重要内容之一,针对基于规则的现代汉语副词用法自动识别方法存在的不足,本文在已有工作的基础上,进
网络拓扑发现算法和实现技术是衡量网络管理系统性能的一个重要方面。本文通过开发网络管理系统网络拓扑发现服务模块过程中获得的理论和实践经验,从物理拓扑算法进行了积极的
序列模式挖掘是数据挖掘的一个重要分支,在金融通讯等领域应用中,序列模式挖掘发挥了重要的作用。虽然到目前为止,关于序列模式的挖掘算法已经相对成熟,但绝大部分算法都是面
工作流技术在软件开发领域得到了广泛的应用,基于工作流开发方式的软件同样需要软件质量控制体系来进行质量控制,而专门针对以工作流技术为开发方式软件的质量控制却鲜有研究。
自上个世纪90年代以来,面向对象的软件开发技术成为软件开发的主流技术,使得基于面向对象的软件复用被视为解决软件危机的一条现实可行的途径。按照复用的不同级别,软件复用
近年来,虚拟化应用场景日益增多,多用户拥有独立逻辑空间、共享后台资源,随着CPU计算资源和网络带宽资源大幅提升,存储资源逐渐成为性能瓶颈。固态盘(SSD)具有高性能、低能耗
学位