基于Nutch的增量网页信息采集系统的设计与实现

来源 :软件 | 被引量 : 0次 | 上传用户:asdf_1900
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根据此周期进行网页信息采集,在采集前根据网页元信息中的网页内容长度与网页最后更新时间的变化与否判断是否进行采集。实验结果表明,随着采集次数的增多,网页采集周期会在真实网络变化周期上下浮动,使得网页采集周期与真实网页变化周期之间较为接近,最终有效的减少了冗余的网页信息采集数据
其他文献
为了解决目前企业级各类异构安防平台间信息缺乏交流和共享而导致的"信息孤岛"问题,以及安防平台建设中应用体系架构不足问题,本文提出了一种基于SOA架构和中间件技术的企业级
6月11日,卫生部等八部门发布《食品安全国家标准规划》。指出,到2015年,要基本完成食用农产品质量安全标准、食品卫生标准、食品质量标准以及行业标准中强制执行内容的清理整合
随着国家文化和旅游部的组建,旅游业迎来了新的发展机遇,其发展一方面要以自然旅游资源为依托,一方面要更加注重文化旅游资源的重要性,增加旅游活动的文化性体验。戏曲文化资
传统文化与中国的变革、改革与进步之间的关系,是20世纪中国被反复提起的一大命题:五四时期、80年代的“文化热”时期,都曾一次又一次提起此一命题,十八大之后我们再一次提起了这
报纸
<正> 人们称誉体育教师是培养体魄健壮的建设者和保卫者的园丁,是青年健美的设计师。作为一名中学体育教师或未来的中学体育教师,为了不辜负党和人民的重托,应努力学习和掌握
对于我们媒体人来说,开展“转作风、正学风、改文风”活动,最关键的是要深入基层,深入群众,密切与人民群众的联系。在实践中向人民群众学习,树立人民至上的理念,积极转变工作作风,不断加强学风建设,倡导清新朴实的文风。努力从基层找选题,基层是新闻报道永不枯竭的源头活水,最鲜活的素材在基层,最感人的故事在基层。  作风、学风、文风是我们党的性质、宗旨的具体体现,也是工作方法、思想方法、精神状态的具体体现。作
目的探讨护理干预对缺血性脑血管病患者他汀类药物服药依从性的影响及临床效果。方法将250例缺血性脑血管病患者随机分为干预组和对照组,干预组在药物治疗的基础上给予积极护
目的:分析经显微镜下鼻蝶垂体瘤切除术疗效。方法选取我院收治100例垂体瘤患者,均采取显微镜下鼻蝶垂体瘤切除术。结果手术均顺利完成,无死亡与大出血。结论经显微镜下鼻蝶垂体
云计算是一种新型的计算模型,能够给用户提供可靠的、弹性的、高资源利用率的服务。通过将云计算和虚拟化技术引入融合网路中,本文设计并实现了一种在融合网络下的,分布式虚拟化
目的探讨应用超声影像技术对小儿急腹症进行诊断所具有的临床价值。方法选择本院曾收治的表现为急腹症症状的患儿100例,应用超声技术对其进行诊断,对其影像学表现进行回顾性