论文部分内容阅读
当前,传统防火墙的URL过滤方式只是对于规则库中的URL进行过滤,对于新增的涉黄涉暴网站无能为力,或者管理员响应迟钝。针对当前这种现状,提出一种局域网内URL过滤系统,基于网络爬虫和敏感词过滤技术通过爬去网页文本和对于网页文本分析来判断指定URL是否合法。考虑到匹配效率和本过滤系统所使用的内存空间,使用MD5对URL计算摘要值,在此之上建立黑白名单,再结合Bloom Filter算法和改进的Hash表数据结构用以实现对URL的高速过滤。