重复网页检测算法综述

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:mengshenabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:重复网页检测是搜索引擎的关键技术之一,算法的选择直接影响搜索引擎的检索效率。该文详细分析了现目前常用的重复网页检测算法,并从算法所采取的两个步骤(特征提取,特征比较)入手,比较了各算法的异同与其各自的优缺点,为进一步优化算法找出思路。 全文查看链接   1.3 I-Match算法[6] 全文查看链接   [2] 中国互联网信息中心(CNNIC)信息服务部.正确看待2004年中国互联网络信息资源的发展特点[EB/OL].(2005-06). http://www.cnnic.net.cn/html/Dir/2005/07/01/3027.htm. 全文查看链接
其他文献
在经济新常态的背景下,实体经济普遍面临需求加速更迭、竞争加剧、技术落伍、人才短缺和利润下滑的发展挑战,产业资金严重匮乏,传统上由政府主导的产业园区受制于地方平台公司的
在信息与互联网时代大潮中,大企业如何做到持续发展而不被颠覆?华为创始人任正非认为,创新就是华为发展的不竭动力。创新是任正非内部讲话中出现次数最多的词汇,足见其对企业创新
中国取得的数字化成就远超多数关注者的预期:中国目前已是全球领先的数字技术投资与应用大国,孕育了全世界三分之一的“独角兽”公司;市场体量庞大,能够推动数字商业模式迅速
摘要:目的探讨放射性核素99TcO4-甲状腺显像对不同时期亚急性甲状腺炎(SAT)的诊断价值。方法选择SAT患者155例,按甲状腺功能分为甲状腺功能亢进(甲亢)组77例、甲状腺功能正常组78例
钻井企业物料库存量大、种类多、价值高,使得钻井物料管理难度大、成本高。钻井ERP物料基础信息管理系统对钻井过程中物料数据特性及物料关系进行了研究,采用ERP物料基础信息的
目的分析连续性肾替代疗法(CRRT)治疗多脏器功能不全综合征(MODS)的临床疗效。方法将60例MODS患者随机分为治疗组、对照组各30例,两组均给予生命体征监测、治疗原发病、抗休克、抗
该文简要介绍了普招报名系统中的用户唯一登陆的设计方法,该方法具有较强的实用性和推广性,有较强的研究价值。并对其设计过程中涉及到的Cookie的选用和Memcached的使用进行
刚刚告别的2015年,是国民经济和社会发展“十二五”规划的收官之年,也是全面深化改革大幕正式启动之年,我国军民融合发展迎来了崭新的局面。最具标志性的是,习近平2015年3月在出
摘要:上网行为管理作为一种硬件技术应用于局域网中,是确保局域网内部网络安全运行的一种重要技术手段。上网行为管理是通过对局域网内进出信息的收集和分析,及时对网络遭到的攻击给出警告或阻断,保证局域网内部的信息安全。该文通过对上网行为管理技术的分析和在局域网中的应用,提出了局域网遭到攻击和黑客侵入时的一種有效防御措施。  关键词:上网行为管理技术;计算机网络;局域网安全  中图分类号:TP393  文献
我是做遗传学的,但是最近这段时间我每天感到最激动的就是学习和应用人工智能,今天我和大家一起分享这方面学习和应用的经验。大家都知道2016年人工智能AlphaGo打败了世界围棋