论文部分内容阅读
摘要:重复网页检测是搜索引擎的关键技术之一,算法的选择直接影响搜索引擎的检索效率。该文详细分析了现目前常用的重复网页检测算法,并从算法所采取的两个步骤(特征提取,特征比较)入手,比较了各算法的异同与其各自的优缺点,为进一步优化算法找出思路。
全文查看链接
1.3 I-Match算法[6]
全文查看链接
[2] 中国互联网信息中心(CNNIC)信息服务部.正确看待2004年中国互联网络信息资源的发展特点[EB/OL].(2005-06). http://www.cnnic.net.cn/html/Dir/2005/07/01/3027.htm.
全文查看链接