论文部分内容阅读
随着Internet技术和应用的飞速发展,Web上的信息资源量正在快速增加。其中存在着大量的对教学和科研具有参考价值的学科资源,它们为学校的教学和科研带来了极大的便利。但是,通过像Google、Baidu等这样的通用搜索引擎在海量的、异构的网络信息资源中来检索某一具体学科资源时,往往不能快速准确的找到有价值的专业信息。垂直搜索引擎就正好满足了这种需求,它是面向某一个领域的专业搜索引擎,它可以为用户提供高质量的学科资源。本文以教育技术学学科资源为例。在对搜索引擎方法的研究分析和算法实现的基础上,提出了几点改进方法,并据此初步构建出了一个基于WEB的学科资源垂直搜索引擎的体系结构。然后按照该体系结构的设计,对其中较为重要的模块部分进行了详细的解释说明。并且在此基础上,通过运用扩展开源组件Lucene、 Heritrix以及本体和文本分类技术实现了该系统。其目的是帮助广大学科领域里的用户快速精准的查询学科领域资源。本文主要进行的工作如下:(1)研究垂直搜索引擎的相关理论,并对垂直搜索引擎的总体架构进行分析。(2)基于WEB的学科资源垂直搜索引擎系统的关键问题研究:构建学科资源本体,并将本体应用于信息采集模块和检索模块中,提高了搜索引擎的查全率和查准率;采用一种新的文本分类技术对检索结果进行分类,从而让用户能够更高效的搜索到更有价值的学科资源;结合网页重要性和主题相关性,提出了一种新的信息过滤算法;通过Java AWT技术和本体访问技术使得检索结果可视化,有利于用户直观的获取隐含的内部知识联系。(3)基于WEB的学科资源垂直搜索引擎的设计与实现:分析系统设计的总体思路,然后进行系统整体体系结构、各个功能模块以及数据库的设计与实现。本论文的特色之处:构建学科资源本体库,并将本体应用于信息采集模块和检索模块中,提高了搜索引擎的查全率和查准率;采用一种新的文本分类技术对检索结果进行分类,从而让用户能够更高效的搜索到更有价值的信息;结合网页重要性和主题相关性,提出了一种新的信息过滤算法;通过Java AWT技术和本体访问技术使得检索结果可视化。