论文部分内容阅读
Internet已经成为目前世界上最大的信息资源库,但是网上信息资源纷繁芜杂,如何满足人们对快速、准确而全面获取信息的要求,已经成为摆在人们面前的一大难题。搜索引擎的出现可以帮助用户在网络上方便地查找到自己需要的信息。但是目前的搜素引擎由于存在网页覆盖率低、索引不及时和返回结果不精确等缺点,因而难以满足专业用户(如某一领域的科技工作人员)对信息的需求。 本文主要的研究工作是针对搜索引擎的一个发展方向——专业搜索引擎,进行理论研究分析和具体设计。在专业搜索引擎的信息采集方面,为获取最优搜索路径,本文采用非贪婪的IpageRank策略指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效的实现搜索引擎的专用化。在信息检索的相关性方面,本文采取的方法是基于网页内容和结构的向量空间模型算法。针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,本文应用本体论通过概念来执行搜索,同时通过使用链接文档及相关的概念来进行过滤及排序。 本文设计的系统还在线提供二种数据挖掘技术,关联规则和聚类,让使用者方便地探索并且浏览搜索出来的文件。 本文的主要工作如下: 1.分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略主要存在的缺陷。 2.针对中文分词中歧义字段的切分问题,着重研究了交集型歧义字段的切分,并提出相应的分类解决方法。 3.针对专业搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的IpageRank搜索策略,并采用改进的VSM向量模型法对网页进行进一步的相关性过滤。 4.针对用户搜索关健字的模糊性及搜索返回结果的不精确性问题,我们提出基于本体论的排序算法,利用搜索词的本体语义来确定及排序相关的Web文档,以此来改进在文本检索中出现的同义,岐义及上下文敏感等问题。