集群式智能型网络信息自动搜寻与采集系统

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户：hnyqk

【摘要】

：

互联网上分布的许多用于搜集网络信息的ＷｅｂＳｐｉｄｅｒｓ（网络爬虫）一般都工作在单机上，难以快速完成大规模的信息采集工作．对此提出了一种集群式Ｓｐｉｄｅｒ系统的构想，它能够使许多Ｓｐｉｄｅｒ工作在不同的主机上完成同

【作者】

：

王宇张秀彬

【机构】

：

上海交通大学信息与控制工程系

【出处】

：

上海交通大学学报

【发表日期】

：

1998年08期

【关键词】

：

采集系统网络爬虫集群式信息采集体系结构软件模型采集任务接口函数流程描述超链接

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上分布的许多用于搜集网络信息的ＷｅｂＳｐｉｄｅｒｓ（网络爬虫）一般都工作在单机上，难以快速完成大规模的信息采集工作．对此提出了一种集群式Ｓｐｉｄｅｒ系统的构想，它能够使许多Ｓｐｉｄｅｒ工作在不同的主机上完成同一项任务（每个Ｓｐｉｄｅｒ负责一部分，可动态调整），因此可大大加速信息采集工作．文中描述了这种系统的体系结构与模型，并介绍了该系统的一种实现，即ＣｈｉｎａＷｅｂＷｉｚａｒｄ．它不仅可以在集群模式下工作，还能动态地发现新的站点．该系统为搜索引擎提供了底层支持，对网点建设者和开发者具有参考价值． Many WebSpiders (web crawlers) distributed on the Internet for collecting network information generally work on a single computer, so that it is difficult to quickly complete large-scale information collection. In this regard, a concept of a cluster-based Spider system is proposed, which can speed up the collection of information by enabling many Spider to work on the same task on different hosts (each Spider is responsible for part of the dynamic adjustment). This article describes the system architecture and model, and describes an implementation of the system, that is, ChinaWebWizard. Not only does it work in clustered mode, but it also dynamically discovers new sites. The system provides the underlying support for search engines, the site builders and developers have a reference value.

其他文献

人工模拟冲刷条件下紫色土坡面径流及流速特征分析

水流冲刷情况下会携带大量泥沙，造成水土流失和土壤侵蚀，而且水流侵蚀的能力和搬运泥沙的能力远大于雨滴打击的侵蚀力和搬运力，因此研究水流冲刷条件下径流对作用面产生的影响具

学位

紫色土坡水流冲刷土壤侵蚀坡面径流流速特征

艾娃·朗格利亚风头正劲

2005年,全美的男士都在拼命地追捧艾娃·朗格利亚.艾娃在中成功地塑造了绝望复杂的角色--加布丽尔·索利斯而一炮走红,并被著名时尚杂志选为2005百大美女之首.她与NBA球员托

丹江口水库库岸带土壤种子库研究

消落带是水库库区生态系统的重要组成部分,其植被在净化污染物、保护水库水质、防止水土流失等方面具有重要的作用。种子侵入消落带并在消落带沉降是植物萌发、植被建成的前

学位

人工调控大坝土壤种子库土壤理化性质CCA丹江口水库

山西省首届文化博览会花絮

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

煤雕佛教圣地山梨

亲爱的朋友

期刊

神奇、美好的国度——一个老外眼中的中国

引言:中国,一个神秘而又极具吸引力的国度.在一个远赴重洋,来到中国的老外眼中,中国到底给他留下了怎样的印象呢?

期刊

老外中国吸引力印象

湖南假俭草绿期延长技术研究

假俭草作为一种优良的暖季型草坪草,已在我国南方地区得到了广泛的推广与应用,但由于其绿期短,成为其推广的主要限制因素。在湖南地区,由于秋冬季温度低,叶绿素及与生长有关

学位

湖南假俭草KNO36-BA草坪青绿期

你内心的财富

期刊

介词用法中的“一字之差”

介词使用频率很高,用法十分灵活,由于大多数有常见用法,其不同用法往往被忽略.但在实际应用中,一个小小的介词可导致句子意义发生根本的变化,稍不留心就会出错.

期刊

介词用法使用频率实际应用句子意义常见用法

动态神经网络的隐节点增删算法研究

在前人关于动态结构神经网络研究的基础上，提出了一种综合性质的隐节点增删算法：由训练过程的均方差和误差衰减率来确定神经元的增删时刻，并采用矩阵分析的方法研究隐节点输出间

期刊

隐节点动态神经网络神经网络研究线性相关隐层BP神经网络均方差神经元数目综合性质矩阵分析

集群式智能型网络信息自动搜寻与采集系统

与本文相关的学术论文