网站聚焦爬虫研究

被引量 : 0次 | 上传用户：wuyishijian

【摘要】

：

近年来，随着互联网的快速发展，网络信息呈指数级的增长，这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战，越来越多的人希望能够快速且有效地找到自己所需要的信息

【作者】

：

刘洁清

【发表日期】

：

2006年期

【关键词】

：

网站聚焦爬虫网站分类 web挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着互联网的快速发展，网络信息呈指数级的增长，这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战，越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统，可以根据用户需要从互联网上自动搜集到主题相关信息，在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页，而在有些应用中，如网络目录，更多的是给用户提供主题相关网站。随着互联网信息的日益增多，目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录，将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制，从用户提供的种子网站开始，以Best-first原则获取最佳候选网站并开始新一轮的爬行分类。本文进行了面向中文网站的网站聚焦爬虫的设计与实现，详细介绍了其各部分的功能和设计原理。实验表明该爬虫能有效的获取主题网站，为实现自动网络目录提供了一种解决方案。与传统网站聚集爬虫不同的是，本文介绍的网站聚集爬虫引入了一种改进的外部爬行策略，即在传统外部爬行策略只考虑平均跨站链接权重的基础上引入网站的跨站链接数以进行候选网站的选取。实验结果表明，改进外部爬行策略后的网站聚集爬虫能够优先访问候选网站队列中的权威主题网站，并能进一步提高获取主题网站的准确率。

其他文献

论中国古代绘画和音乐艺术内涵的相通性

当今社会,跨学科的学习借鉴与研究并相互交融已成为一大主流。艺术本身是一个具有多层次的元素的符号,艺术作为一种多层次的符号,本身就具备了元素转换的复杂系统。中国艺术

期刊

气韵相通性

文化综合格局中的战国策派

战国策派是20世纪40年代初在昆明诞生的一个文化派别。由于40年代错综复杂的国际国内环境，也因为这一派别独具的文化个性，战国策派刚刚登上历史的舞台就引来左翼文艺界的大批判

学位

战国策派文化形态史观“战国时代”重演论民族文学错位的对话基于恐吓的论证

寿险公司偿付能力不足的对策研究

截止2004年底，在中国的寿险市场上活跃着中国人寿、中国平安人寿、中国太平洋人寿、新华人寿、泰康人寿、中宏人寿、太平洋安泰、美国友邦等31家寿险公司，其中中国人寿、中国平

学位

寿险公司偿付能力监管对策研究

人参皂苷单体Rh2对大鼠耐缺氧作用的研究

背景:人参皂苷是人参的有效成分,人参皂苷单体Rh2是从红参中提取出的活性成分,具有抗肿瘤的活性,它对卵巢癌、肝癌、神经胶质瘤等肿瘤细胞都有较明显的抑制作用。目前还没有

学位

Rh2缺氧存活时间心肌力学指标外周血象ASTALTLDH

网络犯罪若干问题研究

21世纪是知识经济的时代，也是网络信息膨胀发展的时代。随着网络的不断延伸，网络犯罪也随之产生，成为世界各国共同面临的重大问题。近年来，网络犯罪的数量急剧上升，尤其是网络淫秽

学位

网络犯罪立法管辖权刑罚

正交频分复用及同步技术研究

近年来OFDM(Orthogonal Frequency Division Multiplexing)发展呈快速之势,其最主要原因是因为其有较长的符号(Symbol)长度,可以有效抵抗多径信道所造成的频率衰落;因此OFDM

学位

OFDM同步技术训练序列循环前缀无线局域网

锡酸盐纳米发光材料的制备与表征

随着纳米技术的迅速发展，纳米发光材料具有许多体块材料所不可比拟的新的光学特性，已经成为人们关注和研究的热点。锡酸盐具有良好的化学稳定性和热稳定性，但对其荧光性能的研究

学位

锡酸盐纳米晶发光掺杂

外国直接投资（FDI）对中国人力资本的影响研究

随着经济全球化进程的加快，竞争的国际性日益明显。当代世界的竞争，表面上是对经济资源、产品质量和市场占有率的竞争，而实质上是对高质量的人力资本和知识技术的竞争。人力资本

学位

外商直接投资人力资本外溢效应

基于接触共同工作板片空间结构稳定问题的研究

空间结构的稳定分析,是结构工程设计中非常重要的问题,结构设计中必须考虑稳定问题以防止结构发生失稳。然而迄今为止,科学而较为方便地确定包括板片空间结构在内的空间结构

学位

稳定分析临界荷载板片空间结构接触增广拉格朗日乘子法有限元模型

道路危险货物运输风险评价研究

道路危险货物运输业的蓬勃发展在极大促进社会生产力发展的同时，也给运输沿线人们的安全和环境带来巨大的危险。提高人类行为的理智性和稳健性、保证人类社会可持续发展的定量

学位

危险货物运输定量风险评价风险评价标准风险度个人风险社会风险

网站聚焦爬虫研究

其他学术论文