论文部分内容阅读
目前,随着万维网上信息量的爆炸性增长,搜索引擎已日益成为人们获取各种信息的重要工具。针对通用搜索引擎的缺陷,一种结合领域知识和智能技术的垂直搜索引擎应运而生,该工具并非只是一个网络上的应用程序,涉及到信息检索、数据库、数据挖掘、人工智能、分布式处理、自然语言理解等多个领域的理论和技术,是一个具有综合性和挑战性的研究课题。网络蜘蛛搜索策略问题是垂网络蜘蛛的搜索策略问题本质上可转化为多目标优化问题,提高网络蜘蛛的搜索效率,也就是将寻求网络蜘蛛效率最佳转化为优化问题求解。作为群智能优化技术代表之一的粒子群算法模拟鸟类觅食、人类认知等自然与社会行为,从随机产生的一群粒子出发,通过粒子间的合作与竞争产生群体智能,进而指导优化搜索网页,同时更要重点搜集相关主题的页面文档,与粒子群算法有着天然的内在联系和相同特征,将粒子群算法引入网络蜘蛛搜索策略的研究中来是一种自然的结合,同时也拓展了粒子群算法等智能计算技术的应用领域。
传统垂直搜索引擎的网络蜘蛛搜集网页时,采用基于单一价值评价的爬行策略,存在主题漂移、容易迷失方向、过于依赖关键词集、容易陷入局部最优等缺陷。本文利用web网页分布群聚性的特点,提出了基于动力学粒子群算法的新的启发式搜索算法。算法对链接综合价值评估函数进行优化求解,通过动态粒子选择策略,使每个粒子自始至终都有机会参与群体的进化,避免了网络蜘蛛过早陷入局部最优的陷阱,克服了对超链接预估选择的低准确性与局部性,使网络蜘蛛调整。测试结果表明新的算法具有较高的搜索效率和准确率。
本文将提出的算法和技术相结合,实现了一个基于动力粒子群算法的计算机相关专业论文的垂直搜索引擎网络蜘蛛系统原形。