面向领域的语义检索研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:woaiwojiaren5210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的不断发展,搜索引擎已成为人们日常生活中获取信息的重要手段。信息检索是搜索引擎的核心技术。但由于自然语言的多样性、歧义性,传统的基于字符串匹配的关键字检索技术常常无法正确理解用户的需求,这也局限了基于关键字的检索技术很难再做出更大的突破。随着语义网的出现,基于语义也逐渐成为提高信息检索能力的一个有效途径。本体作为语义网的重要技术之一,其良好的概念层次结构和对逻辑推理的支持,以及通过关系表达语义的能力,能够协助系统从语义层次上理解用户查询,提高检索的准确率。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的搜索模式,更强调“专、精、深”。因此,垂直搜索对于查询结果的准确率要求更高,其对专业性、领域性的要求恰好与领域本体的特性不谋而合。本文在充分研究国内外现状的基础上,分析并尝试利用领域本体以及知识库来解决语义搜索中的若干问题,主要的工作以及创新点如下:(1)领域本体是对某个具体领域的知识和特性的描述。本文重点介绍并分析了领域本体的组成结构、OWL2本体描述语言以及多种本体构建方法,并结合旅游领域,对七步法进行改进,以OWL 2作为编码语言,构建了旅游本体。(2)语义查询扩展是目前语义技术应用的重要领域。利用领域本体来扩展查询词,并对查询权重进行调整,对查询结果有重要影响。本文对查询范围进行分析,得出查询词可以映射到本体的范围不只是概念,还可以包括实例;采用规范的本体语言OWL 2,并充分利用本体推理的作用,使系统更全面地理解查询;根据扩展词与查询词的不同相关性,对查询权重进一步调整;同时,以旅游领域为背景,实现并评估了面向旅游领域的语义查询扩展,并验证了其有效性。(3)语义排序是语义检索中关键的步骤。实例与文档的相关度在排序中起了重要作用。本文提出了实例与文档的相关度计算方法,认为实例与文档的相关度计算可分为语法相关度和语义相关度。语义相关度又可分为等价相关度和属性相关度,这种方法更好地避免由于自然语言的多样性带来的信息遗失以及词语歧义性。同时,本文将语义检索与传统信息检索结合,避免由于知识库的不完备性导致系统无任何信息返回。最后的文档得分计分方法由语法得分、语义得分综合而得,作为排序依据。文中还验证了排序算法的有效性。(4)语义检索在目前并不能完全代替传统检索。某些传统信息检索的研究、进展能够应用到语义检索中。本文借鉴了传统信息检索的技术,并根据所研究的关键技术(语义排序),完整地实现了面向旅游领域的语义检索系统,包括文档处理、知识库管理、语义检索模块。通过系统的实验,给出的性能评价和分析,以及优化策略。
其他文献
随着医疗数字化进程的加快,医学影像资料数量成爆炸式增长,使其存储空间和获取速度面临很大的挑战。在信号处理领域,人们对于基于信号稀疏表达的研究越来越感兴趣。信号稀疏
僵尸网络(Botnet)是通过入侵网络空间内一个或多个非配合计算终端构建的、可被攻击者远程控制的通用计算平台。其中,非配合指的是未经计算终端刚户明确授权;攻击者指的是掌握僵
对等网(Peer-to-Peer, P2P)以其非中心化、可扩展性、健壮性、负载均衡、容错性好等优点,得到了广泛的应用。eMule协议作为一种典型的P2P应用协议因其在文件共享方面具有其独
随着通信技术的发展,无线能量传输已经成为物联网发展的重要组成部分。尤其是近年来,无线传感网络在环境监测、健康医疗等领域的突出表现使其成为人们生活中不可或缺的一部分
随着业务复杂程度的日益提高,业务建模已经成为软件开发中一个重要的环节,而面向领域的业务建模也成为研究的热点。零码平台是面向特定领域的软件生产平台,提供了过程类业务
Ad Hoc网络是一种无固定基础设施的分布式无线多跳网络,具有组网灵活迅速、节点移动自由、抗毁性强等优点,因而广泛应用于军事和民用领域。但是,由于其网络拓扑动态变换,使得常规
随着社会经济的发展,科技的进步,汽车的使用越来越多,随之而来的汽车盗窃问题日益突出。网络式防盗技术在国外市场中已经广泛使用,而在国内汽车防盗市场中,大部分采用的是电
虚拟组织的应用发展对网络和分布式系统中服务和资源的开放性和多样性提出了更高的要求,现今agent的技术正好能满足虚拟组织发展的需求。agent的自治能力和社会能力能提供灵
社会的大力发展,也促进了科学技术的快速发展,尤其在最近的时间,云计算也同样得到迅速的发展,因此,移动云计算在这样的大数据环境下应运而生。基于计算机技术的前提下,学习模
机器学习中,收集有标签数据来建立模型以及调整其中相关参数的过程是非常花费时间和代价的。当有标签数据的数量较少时,我们希望其中的每一个都尽量具有代表性,这样建立的模型才