基于Web-Log的网页预测模型研究

来源 :太原理工大学 | 被引量 : 3次 | 上传用户:QQ379043463
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息及用户的飞速增长,如何有效减少用户访问延时,提高网络服务质量是一个迫切需要解决的难题,缓存与预取技术是克服此难题的有效方法。但由于随着WWW上动态内容和个性化服务的比重日益增加,缓存技术对网络性能的改善已不再显著,而预取技术是缓存技术的一种有效补充手段,是突破缓存性能上限的最有效的方法,正越来越成为Web加速技术领域研究的热点。在网页预测方面Markov模型是一种简单而有效的工具,但现有的预测方法都有预测准确率和预测覆盖率存在矛盾,并且存储复杂度较高的缺点。因此,改进基于Markov模型进行用户浏览路径预测的方法成为Web日志挖掘的一个新课题。本文对国内外关于Markov模型浏览路径预测的研究现状进行了综合分析,指出了现有的预测方法存在的问题,并提出了改进方案,对如何改进基于Markov模型的预测方法这一问题进行了研究。论文首先介绍了Internet和WWW起源、发展及现状,提出了互联网所面临的问题及解决方案。然后阐述了Web数据挖掘的基本概念、分类以及数据预处理的一般方法和过程。介绍了常用的挖掘算法—关联规则算法,并针对其存在的不足提出了改进的算法。其次本文提出了新的用户浏览兴趣偏爱度,用传统的用户对网页兴趣偏爱度的方法,无法反应用户的真正浏览兴趣和网页的重要程度。新的偏爱度度量方法,不仅考虑了页面的浏览频度,而且引进了页面的访问时间和页面本身的大小,弥补了传统方法的不足,最后利用实验证明了该度量方法的有效性。接着,作者提出了二步Markov预测模型,主要解决了高阶Markov模型空间复杂度过高以及覆盖率逐步下降的问题,在此基础上又提出了混合Markov模型,给出了对应的理论支持和相应的参数求解方法,并在时间复杂度和空间复杂度上进行了分析和对比,结果表明混合Markov模型在这两个方面都优于二阶Markov模型。最后,论文对提出的预取模型在真实Web日志中进行了实验,并对实验结果进行了分析。
其他文献
目前,很多数据的传输和使用都是应用网络数据的形式进行传输,网络流量是承载网络数据的主要形式,因此,识别网络流量,进而分析提取网络数据以及实现流量检测和控制越来越重要
激光光束的传输与控制是高功率激光驱动器创新发展的核心关键技术。研究高功率激光非线性传输的空间特性及其控制措施对提高高功率激光驱动器的运行通量、保障系统运行安全等
基于视频流的卡通动画制作方法是新兴的一种计算机辅助卡通动画方法,也是当前计算机辅助卡通动画研究的热点问题之一。这种方法旨在运用计算机视觉和图像处理等技术,获取视频
近年来随着无线通信技术、传感器技术和嵌入式技术的飞速发展,无线传感器网络成为计算机科学技术的一个新的研究领域。数据采集网络是无线传感器网络一个重要的应用分支。在
近年来,我国对网络科技资源管理领域的投入逐步加大,取得了举世瞩目的成绩。为了进一步提高网络科技资源的利用率,降低网络科技资源管理的成本,我国提出了建设“国家科技基础条件
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度
本文尝试从流程管理和内部控制相结合的角度阐述如何通过加强流程管理来促进企业内部控制,来帮助企业恰当、有效、安全的配置资源,从而更好地达成企业的目标。全文共分为四个主
智能规划已经成为人工智能研究的热点,尤其是基于概率方法的不确定规划算法和对可创建删除对象规划算法的研究。概率方法定量的刻画了现实世界中的不确定性,更适合于求解现实
传输控制协议(TCP)被广泛应用于有线网络中。作为传输层协议,它提供端到端的可靠传输服务,被公认为是有线网络中一种很有效的传输层解决方案。拥塞控制是TCP协议研究的一个热
序列模式挖掘中,类Apriori算法通常与Apriori性质相关联:序列模式中,若子序列非空,则为频繁模式。Apriori性质具有反单调性,利用这种性质可以剪裁搜索空间。然而,序列模式挖掘