基于Lucene搜索引擎库的本体映射方法的研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:she002ying
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网络的迅速成长,涌现和积聚了很多语义信息。然而,因为语义网络分布的自然性,语义网络上的数据不可避免地来自于不同的本体。本体之间的信息加工处理不可能脱离了它们元素之间的语义映射而进行。用手工来发现映射是单调的,易错的,而且很明显在网络范围上是不切实际的。然而,通过本体,代理(人类和软件)可以以一种(半)自动的方式来进行互动,以利用语义来查找信息。因此,本体映射成为了基于语义技术中的一个关键问题。开发本体映射(Ontology Mapping)工具,就成为了语义网络成功的关键因素,它是未来互联网环境下数据集成与管理的有效途径。本体映射算法是以两个本体作为输入,然后为这两个本体中的各个元素(概念、属性或者关系)建立相应的语义关系。本文着重于本体映射问题,尤其是考虑本体用RDF(Resource Description Framework资源描述框架)或OWL(WebOntology Language网络本体语言)来描述。虽然本体之间的一些特征完全不同,但是本体映射的方法却存在着共同点。在大多数情况下,本体映射是利用语言层和结构层信息,来找出两个不同本体(源本体和目标本体)的URIrefs(UniversalResource Identifier Reference URI引用)之间的映射。虽然结构匹配很重要,但是它主要是基于语言之间的匹配。本文首先在前三章简要介绍了本体及本体映射的概念,阐述了本体映射的主要方法,列举了目前国际上主流的几种本体映射方法和本体映射工具,并且详细阐述了Lucene搜索引擎库的主要机制,对其索引机制进行了深入探讨。在后面的章节中,着重介绍了本文提出的一种基于Lucene搜索引擎库的本体映射方法,称之为LselOM(Lucene search engine library Ontology Mapping)。并对其进行了实现,最后通过实验对其的性能进行了评估。本文利用Lucene的特点和性质,首先对源本体进行解析,利用解析结果对源本体建立索引,在索引中,Lucene文档收集了关于URIrefs语言层上的信息(包括局部名、描述信息和属性名,属性值等)。然后利用目标本体的URIrefs作为搜索条件,针对源本体建立的索引进行搜索,从而得到映射,将映射结果输出到Lucene的结果集中。本文的特点是,在搜索过程中,方法结合语言层上的两种匹配方法:基于语义匹配的方法和基于字符串匹配的方法,在基于字符串匹配的方法中,本文利用I-Sub算法来实现对于字符串的匹配,而基于语义匹配的方法中,本文利用Lucene的特性,结合WordNet同义词引擎,将同义词在索引的时候与源本体的关键字一起写进索引,以此实现两种方式的结合,在此基础上使用相似度来衡量搜索的成功与否,如果相似度达到了所设置的阈值,那么就认为本体映射任务成功。本文利用Lucene评分机制的特点,对Lucene原有的评分机制做了相应的改进,根据各评分因子的重要性,使评分覆盖到更广的范围,更具有一般性。本文通过一系列的实验,确定了最适合本方法的相似度设定阈值,并且针对改进的Lucene评分机制,通过实验确定了各个设定因子的值。而且通过LselOM与其它的基于语言层上的本体映射方法比较,由于本文提出的本体映射方法是基于Lucene的,不论是在性能上、查准率上和查全率上都有相当的优势,而且它的复杂性对于用户来说也几乎是透明的。
其他文献
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘领域产生了许多新概念和方法。特别是最近几
随着我国经济的不断发展,焊接已经成为制造业中非常重要的工艺技术。在我们生活的各个领域所需的产品中,几乎都要用到焊接技术。特别是手工电弧焊因其具有灵活、经济、设备简单
网络技术的快速发展和网络应用的普及给人类生产和生活带来了革命性的变化,这也使得人类面临着一种新的威胁—网络安全。入侵检测技术作为一种必要的安全手段,在网络安全领域
随着多媒体技术的发展和Internet的普及,人们获得各种多媒体信息越来越容易,其中图像是数量最多的一种,如何有效地、快速地从大规模图像数据库中检索出所需要的图像已成为人
随着网络的发展及普及,电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点,这给信息检索技术带来了机遇和挑战,同时也促进
网页是传递信息的重要载体,以网页作为研究对象是现今信息检索与信息抽取研究的必然趋势。鉴于句子既是传递信息的基本单位,又是表达完整意思的语言单位,本文以句子为出发点对网
Internet为商业服务提供了开放、通用、标准的信息基础设施,并由此形成了新的商业模式,例如E-services,E-commerce,B2B,B2C,C2C,Virtual Organizations等。有效发现和整合已
作为当今热门研究领域之一的无线传感器网络技术,由于其日益成熟的技术和广阔的应用市场,越来越受到诸多关注。IEEE 802.15.4是一个低数据率的WPAN(LR-WPAN)标准,具有复杂度
随着数字媒体技术的发展,越来越多的人能够更加方便地接触到数字媒体。多媒体检索的目的是从大量的多媒体资源中自动地查找与用户查询请求相关的各种多媒体信息。电视媒体是
随着Internet的迅速发展,互联网已成为一个巨大的信息库,为了有效地利用互联网上的信息,各种Web信息抽取技术应运而生。目前,Web上的很多网页是网站根据用户请求从后台数据库