论文部分内容阅读
分析了现有搜索引擎采集器过滤互联网上重复URL的技术,指出了它们在速度和效率方面存在的不足,借鉴了操作系统请求页式存储管理中的页面置换算法,提出了页置换技术在搜索引擎采集器中高数量级过滤重复地址的应用。使用了虚拟存储技术,使得容量不大的内存可以为众多的进程提供资源,该技术较好地解决了在有限系统资源下进行亿量级URL过滤的速度和效率问题。