论文部分内容阅读
海量URL会造成网络内容过滤系统索引效率低下。该文提出一种基于CPat-Tree改进的URL分级信息存储模型的裁剪算法,通过键值相似度实现键聚类,直接对存储数组遍历以合并相似的叶子节点,减少索引占用空间,提高查询效率。该方法裁剪前后的存储空间变化效果取决于键相似度,因此其具有良好的扩展性。