基于网站目录及链接关系的Spider爬行策略的研究与实现

来源 :北京化工大学 | 被引量 : 0次 | 上传用户:shashuang0126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网(Internet)近几年来的飞速发展,互联网上提供的信息也呈现爆炸式的增长态势,面对Web信息以几何级数不断增长的情况,如何能够快速获取对用户更有价值的、更有质量的信息便成为了研究的热点之一。网络机器人Spider是整个搜索引擎系统的重要组成部分,它是搜索引擎的数据来源,Spider的效率决定着整个搜索引擎系统的内容质量的高低、信息能否及时的更新。 本文首先从搜索引擎的发展和种类出发,研究了搜索引擎的基本组成工作原理和网络机器人的组成体系结构,重点分析了基于网页质量研究的网络机器人的爬行策略。通过对Web结构上的挖掘分析,结合对链接种类的分析,设计了一种新的针对高质量网页及潜在的高质量网页为爬行目标的网络机器人爬行策略。本文的主要研究内容主要包括以下几个方面: 1.通过对一般网络机器人的体系结构的分析,以及对Jeff Heaton Spider开源爬虫的研究,提出了本文所设计的网络爬虫的体系结构。 2.对基于网页质量优先爬行的几种网络机器人爬行策略进行了分析和比较。 3.对Web的结构形式进行了分析,结合对网页间链接的分类研究,提出针对高质量网页和潜在高质量网页为目标的网络机器人爬行策略。 4.通过对实验数据进行分析,并与Backlink算法网络机器人进行比较,证明了本文所设计的爬行方案的可行性和必要性。 5.对运行结果和下一步本课题的实现内容做了分析和简单的展望。
其他文献
图中节点间的可达性判定,在现实中的多个领域有着广泛的应用,包括知识表达、程序分析、地理导航、Internet路由、基于RDF/OWL的本体查询、代谢网络和XML索引等。一个传统的解
随着计算机网络迅速发展,网络攻击手段日新月异,网络安全问题也变得日益复杂和突出。传统的安全技术各有各的缺点,主要表现在:防火墙技术是一种静态的被动防御手段,它对内部的攻击
随着互联网技术的发展,基于移动端的新媒介不断涌现。微信因其内容微型化、可迅速传播扩散,支持实时对讲,且集社交、通讯、平台与一体等特点,受到国内外用户的高度认可。微信
虚拟现实(Virtual Reality,简称VR)技术,是一门综合性信息技术,兴起于20世纪末,应用前景广泛。本论文是“古代建筑虚拟修复与保护”研究子项目基于VRML古代建筑动态漫游系统
节点定位技术是无线传感器网络(Wireless Sensor Network,WSN)的主要支撑技术之一,即根据少数己知位置的节点,按某种定位机制确定自身位置。WSN中的传感器节点在存储、计算和
目前,计算机在航空、军事等关键领域已广泛应用。在这些领域中,计算机系统可靠稳定的运行起着非常关键的作用。任何计算机系统受电磁脉冲的干扰都会产生一些故障,这些故障可
文本是一种重要的信息载体,其数量随着互联网的不断发展极速膨胀。文本聚类作为一种无监督的机器学习方法,已成为对文本信息进行有效的组织、摘要和导航的重要手段,为越来越
在当今机器人技术领域,群机器人通过个体间的交互涌现出的群体智能表现出越来越大的优势,可以完成单一机器人和多机器人无法完成的复杂任务,因此有关群体机器人的研究日益得
作为信息系统核心的数据库管理系统,保存着大量敏感信息。需要采取有效措施防止非法用户的访问。仅有自主访问控制,不能控制信息在不同安全级别的主体间传播。强制访问控制通
无线传感器网络的资源很有限,却集成了监测、控制以及无线通信等多种功能。因此,无线传感器网络资源的节省显得尤为重要。网络编码理论的提出,为提高网络性能、节省网络资源