论文部分内容阅读
随着互联网爆炸式的发展,越来越多的人开始使用互联网,并且互联网中信息量变得越来越大,导致网络拥堵日益严重,降低了网络服务质量。另一方面,互联网中充斥的暴力、反社会、色情等大量不良信息不仅败坏社会风气,还严重影响未成年人身心的健康成长。处于内外网出入口位置的Web代理服务器不仅能通过使用缓存技术来加速用户访问,还能通过使用黑白名单控制用户访问的URL,从而能够很好的解决以上两个问题。因此,如何提升Web缓存替换算法和URL字符串匹配算法的性能变得越来越重要。首先,本文提出了一种基于Web对象的空间局部性和流行度改进的GreedyDual-Size缓存替换算法。Greedy Dual-Size算法综合考虑了Web对象的大小、时间局部性以及获取该Web对象耗费的代价,并以此来计算Web对象的缓存价值。但是,当多个Web对象的缓存价值一样时,Greedy Dual-Size算法可能会将用户访问频率高、联系紧密的Web对象替换出缓存。针对这种情况,本文使用Web对象的空间局部性和流行度来改进Greedy Dual-Size算法。实验结果表明改进的Greedy Dual-Size算法在Web对象命中率和字节命中率方面有明显的提升,并且还降低了访问延迟率。其次,本文提出了一种基于用户访问行为分布特点改进的Hash-WB-Like URL字符串匹配算法。针对用户访问的大部分URL都在黑名单中匹配失败的情况,本文首先使用位图法改进Hash-WB-Like算法,从而避免大部分URL在桶链表上的匹配操作;然后使用小部分内存存储合法并且用户访问概率高的URL用于白名单匹配,从而减少在数据量巨大的黑名单中匹配的次数。实验结果表明改进的Hash-WB-Like算法在URL字符串匹配性能表现方面有明显的提升。最后,本文综合上述两种改进算法设计并实现了基于Web代理的访问控制网关系统。本文对该系统的模块设计与实现做了简要说明,同时给出了该系统的功能和性能测试结果。