基于动力粒子群算法的网络蜘蛛搜索策略研究

来源 :湖北工业大学 | 被引量 : 0次 | 上传用户:hymalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着万维网上信息量的爆炸性增长,搜索引擎已日益成为人们获取各种信息的重要工具。针对通用搜索引擎的缺陷,一种结合领域知识和智能技术的垂直搜索引擎应运而生,该工具并非只是一个网络上的应用程序,涉及到信息检索、数据库、数据挖掘、人工智能、分布式处理、自然语言理解等多个领域的理论和技术,是一个具有综合性和挑战性的研究课题。网络蜘蛛搜索策略问题是垂网络蜘蛛的搜索策略问题本质上可转化为多目标优化问题,提高网络蜘蛛的搜索效率,也就是将寻求网络蜘蛛效率最佳转化为优化问题求解。作为群智能优化技术代表之一的粒子群算法模拟鸟类觅食、人类认知等自然与社会行为,从随机产生的一群粒子出发,通过粒子间的合作与竞争产生群体智能,进而指导优化搜索网页,同时更要重点搜集相关主题的页面文档,与粒子群算法有着天然的内在联系和相同特征,将粒子群算法引入网络蜘蛛搜索策略的研究中来是一种自然的结合,同时也拓展了粒子群算法等智能计算技术的应用领域。 传统垂直搜索引擎的网络蜘蛛搜集网页时,采用基于单一价值评价的爬行策略,存在主题漂移、容易迷失方向、过于依赖关键词集、容易陷入局部最优等缺陷。本文利用web网页分布群聚性的特点,提出了基于动力学粒子群算法的新的启发式搜索算法。算法对链接综合价值评估函数进行优化求解,通过动态粒子选择策略,使每个粒子自始至终都有机会参与群体的进化,避免了网络蜘蛛过早陷入局部最优的陷阱,克服了对超链接预估选择的低准确性与局部性,使网络蜘蛛调整。测试结果表明新的算法具有较高的搜索效率和准确率。 本文将提出的算法和技术相结合,实现了一个基于动力粒子群算法的计算机相关专业论文的垂直搜索引擎网络蜘蛛系统原形。
其他文献
Ad Hoc网络是一种不需要固定基础设施支撑的、由若干移动节点组成的自组织无线网络。网络中没有固定的基站和移动交换中心,所有的协议都必须分布式工作。由于Ad Hoc网络能够快
数据采集技术是信息学科的一个重要分支,被广泛地运用在虚拟仪器、智能仪器、信号处理等领域,它是计算机与外部物理世界连接的桥梁。而基于USB2.0的数据采集系统,由于其高速度、
网格技术是当前计算机发展的一个重要方向,它把地理上分布的、异构的资源连接起来集成一个有机的整体,给用户提供一种新型的计算平台,它使得虚拟组织之间实现大规模的资源共
随着科学技术的迅猛发展以及技术创新与知识创新过程的复杂化,人们对复杂系统研究日益关注和重视。许多问题是不可能单靠个人来解决的,问题的解决可能需要许多人的参与,尤其是各
随着Internet的飞速发展和Web信息量迅速膨胀,用户在获取感兴趣的信息时花费越来越多的时间。搜索引擎以及各种专业的搜索系统的出现,为人们查找信息减轻了一定的负担,但是这些
QoS作为系统的非功能性需求,对于任何一个应用系统而言,都是其取得成功的一个关键方面:不管它们基于何种技术,只有那些能够增加其用户满意度的系统才能得到用户接受。 目前关
随着Web服务标准的完善和支持Web服务平台的成熟,互联网上可用的服务越来越多,由此产生了大量基于Web服务的应用,然而现有的服务大多是单个的,提供的功能非常有限。为了更加
智能规划与规划识别是人工智能研究领域中一个很重要的方向。规划识别是指规划识别器根据观察到的智能体(一个或多个)的片断的、琐碎的动作,推导出智能体将要执行的动作和欲
冠心病是目前危害人类健康的主要疾病之一,而冠状动脉造影术是临床诊治冠心病的主要依据之一。随着技术的发展,近些年兴起的旋转冠状动脉造影术存在多种优势,也使得三维冠状