论文部分内容阅读
多Agent系统是一种运用Agent的自主、灵活、交互等特性来实现某个系统目标或求解某个大规模问题的技术。在多Agent系统中,通信是实现Agent之间协作和协商的基础。然而由于各个Agent所拥有的知识、背景和所处平台的不同,消息内容中所涉及的概念、结构以及消息格式会有不同。这直接导致了Agent之间的通信不畅,所以需要在各个Agent之间共享知识和统一消息格式。本体和形式概念分析就是针对上述问题所提出的一种通信方法,使用结合本体和形式概念分析知识计算出Agent间的理解度进行通信,可以增强Agent对消息内容的语义理解,提高交互和协作的效率,从而提高软件的重用性、互操作性和可靠性。随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引擎可扩展性限制的有效方法,它可以指导抓取URL链接,并有效的析取与目标网页相关度高的网页内容。本文提出了一个基于多Agent系统的主题爬虫模型,并依赖本体和形式概念分析来尝试计算Agent Crawler间的理解度。通过计算概念与概念之间的相似度,概念与Agent之间的相似度以及Agent与Agent之间相似度来衡量这个理解度,并将其应用在基于多Agent系统的主题爬虫中来指导爬行。本文的主要研究内容归纳如下:1.本文提出了一种基于多Agent网络爬虫的理解度的衡量方法。计算智能Agent Crawler中概念间的相似度时,不单单是自然语言词与词之间的比较,还利用本体知识考虑了其语义关系。即将概念的外延扩展到各个网页之间的链接关系,将概念的内涵加入本体中的相等、相似、上义、下义和Part-Of等语义关系,并且本文还考虑了概念格的层次对概念相似度的影响。这样可以从某种程度上消除自然语言的模糊性,提高理解的准确性。2.本文使用基于JADE平台设计实现了基于多Agent系统的主题爬虫模型,使用改进的合同网协议模拟多Agent间的协调。最后利用抓取回来的网页数据对模型进行测试,实验结果表明基于多Agent系统的主题爬虫模型检索的网页相关性、相对回报率都有一定的提高。