论文部分内容阅读
随着因特网的迅速发展,因特网上的信息每天都以指数量级的速度爆炸性增长,如何从这个浩瀚的信息资源库中获取用户需要的信息,是人们面临的一个重要问题。搜索引擎是目前最有效的手段,据中国互联网络信息中心(CNNIC)2004年1月的最新调查统计表明,搜索引擎以占网络服务使用率的61.6%仅次于电子邮件的使用率,可见搜索引擎的重要性,但是当前的搜索引擎的工作效率却并不高,查全率和查准率都有待进一步提高。 本文在了解本体论的国内外研究现状并进行综合比较后,选定知网来实现内容知晓,并用它来来解决当前搜索引擎效率低的问题,针对于用户在使用搜索引擎进行检索时不仅希望获得包含检索关键词的文档,还希望得到与关键词内容相关的文档,对知网进行认真仔细的研究后,提出了一个基于知网的内容知晓模型及词语相似度算法,词语相关度算法和资源语义相关度算法,对用户输入的关键字进行相似度和相关度计算,将在内容上一致的词都归入搜索关键词,形成新的关键词集合,扩大搜索的覆盖度,以提高搜索引擎的查全率;对于在资源中查到的结果进一步计算其与用户搜索内容的相关性,按大小排序返回用户,来提高搜索引擎的查准率。在对检索关键词及资源实现内容理解的基础上进行