论文部分内容阅读
针对集中式搜索引擎的瓶颈问题,提出一种既具有集中式搜索引擎优点又解决了其瓶颈问题的分布协作式搜索引擎系统.系统的设计思想是使地理上分散在不同地方的搜索引擎在信息收集与更新上进行协作.讨论了信息收集程序(Crawler)的3种工作方式:封闭式、交叉式和交换式.提出了成组传送和复制热门URL两种方法来降低在交换式工作方式下传送的URL信息频率和信息量.讨论了Web的3种划分方法:URL散列法、站点散列法和分类法.通过模拟实验验证了在封闭式工作方式下当Crawler数量较少时可以得到较好的收集率.验证了站点散列