论文部分内容阅读
Web预取技术是在分析用户访问的相关数据或行为的基础上,主动预测其下一步可能浏览的页面,通过隐性的请求加载,从而预先取得并存放在缓存中,以备用户访问,从而减少用户访问时因为网络或服务器等各种可能问题造成的时延。基于Web访问模式特性及预取与缓存的基本理论,本文在前人的基础上充分发掘Web访问过程中的规律和特性,采用概率统计、数学分析等方法,改进了包括日志处理,特征词提取,资源预测及资源缓存与替换等算法,建立了一套预取一体化框架。在预取一体化框架的研究中,主要工作包括:(1)在日志数据处理时对路径的补充工作提出了描点法,用以补充日志记录中的访问路径序列遗漏、缺失的信息,以还原一个完整合理的访问行为,该算法简单有效,易于实现;(2)在特征词处理时对传统的特征词提取算法TF-IDF(Term Frequency–Inverse Document Frequency)进行了改进,提出了TF-IDF-CD(Term Frequency–Inverse Document Frequency-Categorical Description)算法,该算法解决了传统特征词提取过程中对于类别区分能力较弱的问题;(3)资源预测过程是在原马尔可夫预取模型的基础上对用户进行分类,同时对用户访问路径从语义的角度进行分析,提取用户信息需求,从而形成了基于用户分类的隐马尔可夫预取模型,该算法将基于访问路径和基于语义两类算法思想相结合,以达到更好的预测准确率。(4)在资源缓存与替换中,我们在GDS(Greedy-Dual-Size)和GDSF(Greedy-Dual-Size-Frequency)算法的基础上,引入时间频度概念,提出了GDSF-T(Greedy-Dual-Size-Frequency-Time)算法,该算法弥补了时间因素对访问频度的影响。最后,将该框架应用于一个基于微信端的农产品产销平台中,以针对此类移动平台特有的带宽低、延迟高、间歇性连通等网络特点,达到降低访问时延、优化系统性能的目的,并通过实验对系统引入预取框架前后对系统性能的影响进行了测试和分析,测试结果显示各项指标均良好。