论文部分内容阅读
随着信息技术的迅速发展和普及,基于Internet/Intranet信息环境的各种专业文献信息资源日益增多,并逐渐形成了分布式、结构松散的网络信息环境。传统的专业文献信息检索系统,其检索模式主要是基于关键词匹配,只能根据用户输入的关键词进行语法层面的字符串匹配检索,检索效果往往不尽如人意。作为一种全新的信息组织方法,本体理论的发展为语义检索提供了一种重要的解决思路和实现途径。本体理论不仅吸收和体现了传统情报检索语言的一些基本思想和特征,而且能够更好地适应当前网络环境下信息组织和检索的需要。作为领域知识的共同理解与描述,领域本体的出现和发展不仅会促进行业内领域识的共享和异构信息资源的整合,而且必将带动领域内专业文献信息检索问语义层面的跨越。为此,本文在国内外相关研究基础上,充分利用现有专业文献元数据资源,探索基于领域本体的专业文献信息检索的模式和技术。
本文根据信息检索的基本原理,提出了基于领域本体的专业文献信息检索模型,并就其基本思路、与传统检索模式的异同和须解决的关键技术进行了说明。为实现对专业文献有效的信息组织,本文在借鉴分类法、主题法等传统信息组织方法和元数据的基础上,提出了构建领域概念本体、编码体系本体和专业文献本体来整合和组织异构的专业文献信息,并详细阐述了领域本体构建、语义标注和权值计算的过程。随后,本文围绕查询请求处理、查询请求与文档集的匹配以及检索结果的处理展开论述,给出了领域概念本体中概念相似度和相关度矩阵的定义和算法,在传统的向量空间模型基础上提出了基于概念的文档向量和查询向量的构造方法,并就检索结果的处理进行了介绍。为了检验基于领域本体的专业文献信息检索模型的可行性和检索效果,本文开发了一个基于领域本体的专业文献信息检索原型系统,建立了包含六千多个概念的汽车领域概念本体,实现了1.7万多篇汽车领域各类专业文献的语义标注和检索。本文还对基于领域本体的原型检索系统与传统检索模式的效果进行了比较,测试结果表明,基于领域本体的专业文献信息检索不仅具有实现的可行性,而且在检索效果上优于传统的关键词检索模式。基于领域本体的专业文献信息检索研究不仅具有重要的理论价值,而且还具有广阔的应用前景。文本提出的领域本体构建、语义标注和检索实施的模型框架为在当前网络信息环境下组织和利用专业文献信息提供了一个解决方案,为今后深入研究专业文献的知识表达和语义检索提供了一个可行的起点。