基于数据访问模式挖掘的磁盘数据预取技术研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:asa333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机系统计算单元与存储单元的性能差距越来越大。存储系统性能的优化对文件系统乃至计算机的整体性能提高有非常重要的作用。数据预取技术是重要的优化手段之一,它不仅用在CPU内部预取指令与数据,更是在数据存储领域得到广泛的研究与应用。然而,大多数的缓存预取算法对应用程序的访问模式有较严格的前提或者假设,使得算法只能优化特定的一类应用程序。本文试图使用数据挖掘的手段从应用程序的数据访问历史中找到其访问模式,以此来帮助预取程序识别访问模式,并做出正确的预取决策。我们的算法不对应用程序做假设,只依赖挖掘出来的访问模式。本文在回顾了一些具有代表性的研究成果和Linux内核所实现的预取算法的基础上,提出了在系统更底层实施预取算法的构想。本文提出了面向预测的关联规则,讨论了这种规则的约束条件以及区别于一般关联规则的特点,重点讨论了时间约束条件对规则的挖掘和应用方面的影响。并指出磁盘的数据访问模式可以用这样的关联规则表示,同时它也能直接用于预取算法中对磁盘访问的预测。在第三章中我们详细讨论了规则挖掘算法设计要点与优化手段。为了达到预取程序所需的实时性,规则的匹配也要求具有较强的实时性。在第四章我们讨论了基本的规则匹配算法以及实时性更佳的基于布隆过滤器的匹配算法。该方法可以避免几乎全部的无效查询。实验表明,每次规则匹配中,该算法几乎能保证一次查询就匹配到规则数据库中的结果。最后文章给出了一个模拟仿真实验环境,在此环境中可以评估本文提出的挖掘、预取算法的性能指标。为了能获取任意真实应用程序的磁盘访问行为,本文还给出了一个在Linux内核中实现的磁盘访问记录抓取程序。作者使用这个工具分别记录下系统运行OLTPBench程序和编译一次Linux内核时,发生的所有磁盘访问记录。连同另外一个公共数据集[54]测试了算法的可行性与性能指标。实验表明,预取算法能够明显提升应用程序的响应时间,并达到了良好的实时性。
其他文献
生物特征识别技术是利用人类自身生理或行为特征进行身份鉴别的一种技术。人的生理特征包括指纹、手形、掌纹等,行为特征包括签名、语音等。与基于ID卡、口令和密码的传统身
Internet已经成为人们日常生活中的主要信息来源之一。搜索引擎是人们在Internet查找所需信息的主要工具。目前主流的搜索引擎主要采用用户查询词与网页中的关键词精确匹配的
本体在智能信息集成、信息管理、自然语言处理等领域发挥着越来越重要的作用。目前本体的构造大多基于人工方式,需要大量的时间和费用,已不能满足本体应用的需要。因而本体的自
由于嵌入式系统应用的不断增长和复杂性的不断提高,嵌入式系统的调试便成为开发过程中不可缺少的辅助手段。基于ARM体系结构的处理器芯片具有片上调试功能,支持JTAG调试,并且
云计算的成功促使了大规模数据中心的建立,以满足日益增长的按需计算能力需求,同时云数据中心也消耗着巨大的电力能源,如何对云数据中心的资源进行高效的管理具有很大的挑战
VoIP(Voice Over Internet Protocol)是一种基于IP网络的数字化语音传输技术,其本质特征在于语音的分组交换。过去的十年里VoIP技术不断完善,VoIP产业蓬勃发展。同时,随着嵌入式
学位
现实世界中的很多网络系统都可以抽象成社会网络,在这些网络中,节点表示个体,节点之间的边表示个体之间的相互联系。随着对社会网络研究的不断深入,人们发现网络具有社团结构
网格计算技术是目前国际计算机界的热门研究领域。网格是以资源共享为目的,支持对各种资源的远程和并发访问,利用互联网把地理上广泛分布的各种资源连成的一个具有单一系统镜像
资源描述框架(Resource Description Framework,RDF)是描述Web资源的标准数据模型。由于Web数据的半结构化特性,RDF查询语言应该提供对半结构化数据的查询机制。W3C新近提出的S