论文部分内容阅读
成功的搜索引擎都有稳定的分布式文件系统,采用分布式计算的方式,使得网页数据、索引文件都分散存储在网络中,检索从分散的数据中通过分布式计算获取.通过分析分布式搜索引擎,研究了Google的分布式文件系统CoogleFS以及MapReduce算法,针对Nutch的特性.提出了FoundClear算法和一种NDFS的解决方案,最后与GoogleFS系统作了比较.