论文部分内容阅读
增量爬取是搜索引擎保持抓取数据新鲜度的重要技术,其实现思路分为朴素同步策略与主动同步策略两种。这两种思路目前在实现上存在着各自的不足,重要原因是其实现框架考量方面的不足。因此对增量爬取过程进行深入分析,界定出增量爬取所需要解决的核心问题;通过泛化解决核心问题的具体方法,定义出实现增量爬取技术的策略框架。基于该框架,可在完整回应核心问题的同时,采用灵活实现策略的具体方法,以保证增量爬取实现方案取得复杂度、性能的平衡。