基于多Agent系统的主题爬虫理解与协作研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:lajiub1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多Agent系统是一种运用Agent的自主、灵活、交互等特性来实现某个系统目标或求解某个大规模问题的技术。在多Agent系统中,通信是实现Agent之间协作和协商的基础。然而由于各个Agent所拥有的知识、背景和所处平台的不同,消息内容中所涉及的概念、结构以及消息格式会有不同。这直接导致了Agent之间的通信不畅,所以需要在各个Agent之间共享知识和统一消息格式。本体和形式概念分析就是针对上述问题所提出的一种通信方法,使用结合本体和形式概念分析知识计算出Agent间的理解度进行通信,可以增强Agent对消息内容的语义理解,提高交互和协作的效率,从而提高软件的重用性、互操作性和可靠性。随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法,它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文提出了一个基于多Agent系统的主题爬虫模型,并依赖本体和形式概念分析来尝试计算Agent Crawler间的理解度。通过计算概念与概念之间的相似度,概念与Agent之间的相似度以及Agent与Agent之间相似度来衡量这个理解度,并将其应用在基于多Agent系统的主题爬虫中来指导爬行。本文的主要研究内容归纳如下:1.本文提出了一种基于多Agent网络爬虫的理解度的衡量方法。计算智能Agent Crawler中概念间的相似度时,不单单是自然语言词与词之间的比较,还利用本体知识考虑了其语义关系。即将概念的外延扩展到各个网页之间的链接关系,将概念的内涵加入本体中的相等、相似、上义、下义和Part-Of等语义关系,并且本文还考虑了概念格的层次对概念相似度的影响。这样可以从某种程度上消除自然语言的模糊性,提高理解的准确性。2.本文使用基于JADE平台设计实现了基于多Agent系统的主题爬虫模型,使用改进的合同网协议模拟多Agent间的协调。最后利用抓取回来的网页数据对模型进行测试,实验结果表明基于多Agent系统的主题爬虫模型检索的网页相关性、相对回报率都有一定的提高。
其他文献
随着Web数据和各种网络资源剧增以及语义网的兴起与发展,海量RDF(Resource Description Framework,资源描述框架)数据存储已成为当前Web数据存储领域的研究热点。作者在深入
由于三峡库区特殊的地质地理条件,自古以来就是滑坡灾害高发地区,特别是三峡大坝建成和三峡库区蓄水后,三峡库区地质环境受到严重的影响,滑坡灾害频发。滑坡灾害不但破坏桥涵、电
无线传感器网络(WSN)是近几年来国内外较为热门的研究领域,在国防军事和人们的日常生活上具有十分重要的应用前景。纵观计算机网络技术的发展史,应用需求始终是推动无线互联
形式化方法是建立在严密数学逻辑基础上的系统研究方法,其严谨、精确的特性适合发现系统设计与开发过程中并发性、安全性等方面的问题。PAT(Process Analysis Toolkit)平台是
人脑是自然界中最复杂的网络之一,而复杂网络理论为人脑的研究提供了一个新的方向。计算脑网络属性的方法是研究脑网络的一项重要途径,因此网络构建时间和属性计算时间是影响
数据库技术的广泛应用使得数据库应用系统中对时态信息处理的要求越来越高,越来越多的应用系统需要存储和管理相关的时态信息。为了描述时态信息,提出了时态数据库的概念。时
在医疗信息系统中,各部门的信息系统之间以及各个医疗机构之间缺乏有效的共享和统一的规范,因此形成了信息孤岛。传统的采用面向构件的方法缺乏灵活性的交互,而多Agent的社会
统一通信是一种新的通信模式,它把计算机技术与传统通信技术融合在一起,作为一种解决方案和应用,它的最终目的就是让人们能够在任何时间、任何地点,都可以通过任何设备、任何网络
学位
随着免疫学理论研究的不断发展,人们对生物免疫系统的认识不断深入,提出了人工免疫系统,该系统已经被广泛应用于科学研究和工程实践的众多领域。免疫算法(Immune Algorithm,
近似串匹配是计算机科学的基础问题,在文本检索、生物信息学、信号处理、入侵检测、模式识别、数据挖掘和实体识别等领域具有广泛的应用。近似串匹配的效率决定了这些应用的