论文部分内容阅读
海量信息在网络上的出现,使搜索网站应运而生,越来越多的搜索工具受到关注。Nutch是一个开源Java实现的搜索引擎,扩展性较好,是人们研究的热点。现今出现的Nutch-0.8.1较好地处理了英文分词,但没有对中文分词进行处理。文章介绍了在Nutch-0.8.1中实现索引及检索的二分法,指出在中文分词上它比原Nutch-0.8.1有了明显的改善。