论文部分内容阅读
随着网络的不断发展,搜索引擎已成为人们日常生活中获取信息的重要手段。信息检索是搜索引擎的核心技术。但由于自然语言的多样性、歧义性,传统的基于字符串匹配的关键字检索技术常常无法正确理解用户的需求,这也局限了基于关键字的检索技术很难再做出更大的突破。随着语义网的出现,基于语义也逐渐成为提高信息检索能力的一个有效途径。本体作为语义网的重要技术之一,其良好的概念层次结构和对逻辑推理的支持,以及通过关系表达语义的能力,能够协助系统从语义层次上理解用户查询,提高检索的准确率。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的搜索模式,更强调“专、精、深”。因此,垂直搜索对于查询结果的准确率要求更高,其对专业性、领域性的要求恰好与领域本体的特性不谋而合。本文在充分研究国内外现状的基础上,分析并尝试利用领域本体以及知识库来解决语义搜索中的若干问题,主要的工作以及创新点如下:(1)领域本体是对某个具体领域的知识和特性的描述。本文重点介绍并分析了领域本体的组成结构、OWL2本体描述语言以及多种本体构建方法,并结合旅游领域,对七步法进行改进,以OWL 2作为编码语言,构建了旅游本体。(2)语义查询扩展是目前语义技术应用的重要领域。利用领域本体来扩展查询词,并对查询权重进行调整,对查询结果有重要影响。本文对查询范围进行分析,得出查询词可以映射到本体的范围不只是概念,还可以包括实例;采用规范的本体语言OWL 2,并充分利用本体推理的作用,使系统更全面地理解查询;根据扩展词与查询词的不同相关性,对查询权重进一步调整;同时,以旅游领域为背景,实现并评估了面向旅游领域的语义查询扩展,并验证了其有效性。(3)语义排序是语义检索中关键的步骤。实例与文档的相关度在排序中起了重要作用。本文提出了实例与文档的相关度计算方法,认为实例与文档的相关度计算可分为语法相关度和语义相关度。语义相关度又可分为等价相关度和属性相关度,这种方法更好地避免由于自然语言的多样性带来的信息遗失以及词语歧义性。同时,本文将语义检索与传统信息检索结合,避免由于知识库的不完备性导致系统无任何信息返回。最后的文档得分计分方法由语法得分、语义得分综合而得,作为排序依据。文中还验证了排序算法的有效性。(4)语义检索在目前并不能完全代替传统检索。某些传统信息检索的研究、进展能够应用到语义检索中。本文借鉴了传统信息检索的技术,并根据所研究的关键技术(语义排序),完整地实现了面向旅游领域的语义检索系统,包括文档处理、知识库管理、语义检索模块。通过系统的实验,给出的性能评价和分析,以及优化策略。