论文部分内容阅读
由于Internet上的信息具有数量庞大、无序性强、重复性大的特点,互联网上的各种信息检索系统——搜索引擎成为帮助人们上网获取信息的主要工具。这些搜索引擎在给人们带来很大便利的同时也暴露出许多问题。搜索引擎返回给用户的检索结果数量越来越大,人们越来越难以找到真正符合自己意图的信息。因此,如何提高搜索引擎的检索效率和如何更快更准确的向用户提供检索信息成为本文关注的唯一内容。 本文致力于从Web个性化信息检索系统的系统结构、网页分类、用户个性化模式的表示等三个角度来分析,主要包括以下工作: 1.对现有的信息检索系统进行分析 分析了当前Web信息检索系统的发展过程和发展趋势,并分析了Web信息检索系统所涉及的关键技术及相关知识。在此基础上,分析了当前信息检索系统存在的一些不足之处,如随着Internet规模和用户的飞速发展,如何向用户准确提供他们所需要的内容问题;特征词与网页分类相结合进行信息检索问题。 2.提出基于Web的个性化信息检索的体系结构 首先介绍了个性化信息检索的概念,然后对实现个性化信息检索的各项技术进行论述。结合分析本体论提出特征词和网页分类相结合的检索方案,将现有的基于关键词层面的信息检索提高到基于知识(或概念)层面的信息检索,可以大大提高信息检索效率。最后从用户角度和资源角度来分析、构建出一个具体的个性化信息检索系统,一个个性化信息检索系统包含两个基本组成部分:用户个性化信息(用户兴趣)的收集、整理系统和用户个性化信息的支撑系统,即Web资源的组织、分类和推荐。 3.提出一种基于静态二叉树的个性化模式表示方法及相应的文档过滤算法 如何更快、更准确的向用户提供其所感兴趣信息是当前搜索引擎系统发展的方向之一。解决这个问题的基础在于如何准确的获得用户的兴趣并把它表示出来。本文提出了一种基于静态二叉树形式的个性化模式表示方法。在这种个山东大学硕士学位论文性化模式表示的基础上,给出了文档过滤算法。这种用户个性化模式的表示方式的最大优点能提高W七b文档过滤的效率,减少用户等待时间。关键词:个性化信息检索;本体论;用户个性化模式;静态二叉树II