论文部分内容阅读
随着互联网的发展,一些主题网站和内部局域网的信息量也大幅增长。人们发现在通用搜索引擎上面搜索某类主题信息的及时性和准确性还不理想。目前虽然已经有google、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。一方面,由于局域网内部信息检索的需要,不能对百度与google公开;另一方面,通用搜索引擎的页面更新比较慢,信息的实效性、准确性都无法保证。因此,为了提高提高主题类网站或者局域网内信息检索的效率,本文研究并实现一个基于主题搜索的小型搜索引擎。本课题要研究了面向主题领域的搜索引擎。它是一个典型的专业搜索引擎。希望通过本课题的研究,能够开发一个基于相关领域、相关信息完整的搜索引擎系统,并在系统中重点研究信息的搜索算法和分词技术,以便对搜索引擎技术、搜索算法和中文分词有更进一步的了解和掌握。论文的主要工作主要有:阐述了网络蜘蛛页面爬行算法与原理,在分析总结基于关键词算法与基于概念的算法之上,使用了用分析超链接改进主题爬行的策略。通过实验数据,对比引入链接分析前后的结果,论证了其实现可行性与可操作性,为实现定向信息采集奠定了良好的基础;设计了分词器的“正向最细粒度最长算法”分词算法,提高了分词准确率并具有高速处理能力,满足了搜索引擎的使用,并对系统进行了测试和性能分析。