基于多Agent系统的主题爬行虫协作与实现方法研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:zhuhuajian21004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息以指数级增长,给通用搜索引擎带来巨大压力,使得通用搜索引擎搜索结果不全面,对于用户输入的查询词,返回大量的无关信息,这就使得主题爬行虫诞生。主题爬行虫只抓取与主题相关的网页,忽略掉与主题无关的网页,这样减少了大量的时间在爬行无关网页上。并且主题爬行虫具有爬行时间少,存储空间小,以及能够更好的满足用户的个性化需求等优势,这也同时促进了主题爬行虫的发展。对于各种传统的主题爬行虫,它们在爬行过程中至始至终都是相互独立工作的,多个爬行虫之间没有交流与协作,使得这些爬行虫在爬行的过程中不能及时的进行交流来实现信息共享,出现爬行区域重合和爬行效率不高的状态。将多Agent的理论用于主题爬行虫之间的通信和协作,为提高主题爬行虫爬行网页的准确率和爬行效率提供了新的方向。本文将每一个主题爬行虫看做一个Agent,使得主题爬行虫具有自主、灵活、交互等特性,并且采用多Agent的知识来实现多个主题爬行虫在网页爬行过程中的协作,从而提高爬行虫的爬行精度和爬行效率。论文的主要研究内容包括以下几点:1.本文提出了一种招标能力值的度量方法。该招标能力度量方法用于评价一个Agent是否具有招标能力,从而决定该Agent是否要发布招标信息。这个能力函数不仅考虑了爬行虫的爬行历史网页的重要度,而且考虑了已爬行网页的链接分值。实验证明该能力函数能更准确地评价Agent的招标能力。2.本文提出了一种新的多Agent的主题爬行虫组织结构。在这个组织结构中,所有Agent被分成三类:F-Agent(Facilitator-Agent), As-Agent(Assistance-Agent),和C-Agent (Crawler-Agent),他们各尽其责并且相互协作共同完成网页爬行任务。3.本文提出了多Agent主题爬行虫的协作模型。一种改进的合同网协议被用来实现多Agent主题爬行虫之间的协作,并且详细论述了改进的合同网协议中的招标、投标、合同签订、合同终止四个过程。针对该协作模型,本文提出了多Agent主题爬行虫系统的系统框架和工作流程。文章的最后,采用JADE平台实现了本文提出的多Agent主题爬行虫,并且在爬行精度和爬行效率上面与其它四种主题爬行虫进行比较,最终实验证明,本文提出的多Agent主题爬行虫不仅可以减少爬行虫的网络爬行重合度,而且具有更高的爬行精度和爬行效率。
其他文献
随着汽车的普及和网络技术的发展,人们就自然产生了将这两种技术结合起来的想法,于是提出了车辆自组织网络(Vehicular Ad hoc Networks,VANETs)的概念。如今,由于VANETs具有广泛的
全球石化资源的日益枯竭,以及二氧化碳排放的大幅增加,伴随而来的是环境的污染,全球海平面的上升等严重危害人类生命的现状。于是人们对新能源电动汽车的青睐也随之而来,因其具备
秘密共享是现代密码学的重要组成部分,也是信息安全领域中的重要研究方向。门限共享验证签名即n个验证者中任意t个验证者协作可以验证签名是否有效,任意少于t个验证者无法验证
概念设计是决定产品开发效率、最终质量以及市场竞争力的关键因素,概念设计产品信息的重用可以提高产品的市场竞争力,因此,探索有效的概念设计产品信息的表达与检索技术,实现概念
云计算(Cloud Computing)是一种全新的商业计算模式。它将大量存储和计算资源在逻辑上组成统一的资源池,让用户可以根据自己的需要弹性地获取存储空间和计算能力。云计算彻底
随着复杂网络的提出和发展,各个领域都对复杂网络理论和应用的研究产生了很大的兴趣。复杂网络的小世界性质和无尺度性质的发现推动了复杂网络各个方面的研究。   复杂网络
随着信息化时代的到来,越来越多的企业开始注重人力资源方面的工作,从原来的人事部门转变为现在的人力资源管理部门,这并不是仅仅只是名称上的一个改变,更多的改变还是工作内容方面的转变。人力资源管理系统(HRMS)已经成为企业进行现代人力资源管理的有效工具。在大中型企业中,人力资源管理系统的应用尤为广泛。在广泛使用的基础上,也发现了一些有待改善的方面。本文主要就人力资源管理系统考勤模块的不足,结合工作流平
图像分割是进行模式识别等高级图像分析的预处理阶段,其目的就是目标和背景分离开来,把图像分割成互不相交的区域,属于同一个区域内的点都有相似的属性。针对不同的图像特点,目前
计算机网络的迅速发展衍生出了很多新型的网络服务,包分类是所有这类应用的核心技术。包分类根据包头中的相关域将数据包划分到不同的类中进行区分处理。随着网络流量的激增,包
RFID是一种以无线、非接触的方式自动识别目标对象信息的技术,可以适应于各种恶劣环境,并且不需要人工的参与。目前被广泛的应用于各个领域。它是物联网的基础核心技术之一。RF