论文部分内容阅读
海量网页的存在及其数量的急速增长使得通用搜索引擎难以满足面向主题或领域的用户需求。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的,本文给出了主题爬虫中url处理、文本信息处理、文本特征训练等全部设计流程。实验结果充分论证了其可行性与实用性,为进行主题搜索引擎设计和个性化推荐系统设计提供相关主题信息采集的良好基础。