论文部分内容阅读
缓存技术和预取技术是解决Web访问延迟问题的主要方案。虽然缓存技术在互联网上有着非常广泛的应用,但是单纯的缓存机制只是利用WWW的访问模式的时间局部性,对于未曾访问过的内容无法缓冲,响应性能依然得不到很大改善。而预取技术是缓存技术的一种有效补充手段,是突破缓存性能上限的最有效的方法。预取可以对用户未请求过的页面进行缓冲,是一种主动的高速缓冲,是缓冲机制由时间局部性向空间局部性的扩展。预取技术在实际应用中必须解决好两个问题,一是预测——推测用户将要访问的Web对象,决定哪些Web对象值得预取;二是预取控制,其效果将直接决定预取技术能否在较大范围中推广而不对网络性能产生严重的负面影响。因此需要根据系统状态决定实际预取哪些Web对象、具体预取多少Web对象,避免消耗过多的网络资源。预取技术和缓存技术的结合可以在Web应用中大大减少用户请求后的等待时间。本文提出了在预取缓存一体化条件下的预取控制策略,并给出了Web对象可预取性的度量方法。 论文首先介绍了互联网所面临的问题及解决方案。然后阐述了缓存和预取技术的基本概念及缓存系统和预取系统的分类与结构,并总结了现有的缓存替换算法和特点,以及现有预测算法和预取控制策略。 接着,介绍了序列模式挖掘相关知识,并详细描述了本文预测模型中采用的基于位图深度优先挖掘算法。该序列模式挖掘采用不同于传统序列挖掘的宽度优先,而是采用基于字典树数据结构的深度优先,同时采用位图保存和计算各序列的支持度,能够较迅速的挖掘出频繁序列。 然后,详细讨论了Web对象的可预取性概念及相应的度量方法。接着在考虑预取-缓存交互的情况下,建立了三种预取控制模型,通过分析预取控制的代价函数,得到进行有效预取控制的阈值,并讨论了预取阈值的下限。预取那些被访问概率超过阈值的对象,能够使得预取代价最小,从而达到进行有效预取控制的目的。模拟实验表明,在预取与缓存交互的条件下,该控制模型能够较好地控制预取,减少系统资源和网络资源的过度消耗。同时给出在不同缓存容量大小和替换算法条件下的真实日志的应采用的预取阂值。 最后,利用上述基于序列模式挖掘的预测模型在预取缓存一体化的条件下对其进行的模拟实验表明该模型具有较好的性能。