论文部分内容阅读
随着互联网信息及用户的飞速增长,如何有效减少用户访问延时,提高网络服务质量是一个迫切需要解决的难题,缓存与预取技术是克服此难题的有效方法。但由于随着WWW上动态内容和个性化服务的比重日益增加,缓存技术对网络性能的改善已不再显著,而预取技术是缓存技术的一种有效补充手段,是突破缓存性能上限的最有效的方法,正越来越成为Web加速技术领域研究的热点。在网页预测方面Markov模型是一种简单而有效的工具,但现有的预测方法都有预测准确率和预测覆盖率存在矛盾,并且存储复杂度较高的缺点。因此,改进基于Markov模型进行用户浏览路径预测的方法成为Web日志挖掘的一个新课题。本文对国内外关于Markov模型浏览路径预测的研究现状进行了综合分析,指出了现有的预测方法存在的问题,并提出了改进方案,对如何改进基于Markov模型的预测方法这一问题进行了研究。论文首先介绍了Internet和WWW起源、发展及现状,提出了互联网所面临的问题及解决方案。然后阐述了Web数据挖掘的基本概念、分类以及数据预处理的一般方法和过程。介绍了常用的挖掘算法—关联规则算法,并针对其存在的不足提出了改进的算法。其次本文提出了新的用户浏览兴趣偏爱度,用传统的用户对网页兴趣偏爱度的方法,无法反应用户的真正浏览兴趣和网页的重要程度。新的偏爱度度量方法,不仅考虑了页面的浏览频度,而且引进了页面的访问时间和页面本身的大小,弥补了传统方法的不足,最后利用实验证明了该度量方法的有效性。接着,作者提出了二步Markov预测模型,主要解决了高阶Markov模型空间复杂度过高以及覆盖率逐步下降的问题,在此基础上又提出了混合Markov模型,给出了对应的理论支持和相应的参数求解方法,并在时间复杂度和空间复杂度上进行了分析和对比,结果表明混合Markov模型在这两个方面都优于二阶Markov模型。最后,论文对提出的预取模型在真实Web日志中进行了实验,并对实验结果进行了分析。