论文部分内容阅读
随着语义网络的迅速成长,涌现和积聚了很多语义信息。然而,因为语义网络分布的自然性,语义网络上的数据不可避免地来自于不同的本体。本体之间的信息加工处理不可能脱离了它们元素之间的语义映射而进行。用手工来发现映射是单调的,易错的,而且很明显在网络范围上是不切实际的。然而,通过本体,代理(人类和软件)可以以一种(半)自动的方式来进行互动,以利用语义来查找信息。因此,本体映射成为了基于语义技术中的一个关键问题。开发本体映射(Ontology Mapping)工具,就成为了语义网络成功的关键因素,它是未来互联网环境下数据集成与管理的有效途径。本体映射算法是以两个本体作为输入,然后为这两个本体中的各个元素(概念、属性或者关系)建立相应的语义关系。本文着重于本体映射问题,尤其是考虑本体用RDF(Resource Description Framework资源描述框架)或OWL(WebOntology Language网络本体语言)来描述。虽然本体之间的一些特征完全不同,但是本体映射的方法却存在着共同点。在大多数情况下,本体映射是利用语言层和结构层信息,来找出两个不同本体(源本体和目标本体)的URIrefs(UniversalResource Identifier Reference URI引用)之间的映射。虽然结构匹配很重要,但是它主要是基于语言之间的匹配。本文首先在前三章简要介绍了本体及本体映射的概念,阐述了本体映射的主要方法,列举了目前国际上主流的几种本体映射方法和本体映射工具,并且详细阐述了Lucene搜索引擎库的主要机制,对其索引机制进行了深入探讨。在后面的章节中,着重介绍了本文提出的一种基于Lucene搜索引擎库的本体映射方法,称之为LselOM(Lucene search engine library Ontology Mapping)。并对其进行了实现,最后通过实验对其的性能进行了评估。本文利用Lucene的特点和性质,首先对源本体进行解析,利用解析结果对源本体建立索引,在索引中,Lucene文档收集了关于URIrefs语言层上的信息(包括局部名、描述信息和属性名,属性值等)。然后利用目标本体的URIrefs作为搜索条件,针对源本体建立的索引进行搜索,从而得到映射,将映射结果输出到Lucene的结果集中。本文的特点是,在搜索过程中,方法结合语言层上的两种匹配方法:基于语义匹配的方法和基于字符串匹配的方法,在基于字符串匹配的方法中,本文利用I-Sub算法来实现对于字符串的匹配,而基于语义匹配的方法中,本文利用Lucene的特性,结合WordNet同义词引擎,将同义词在索引的时候与源本体的关键字一起写进索引,以此实现两种方式的结合,在此基础上使用相似度来衡量搜索的成功与否,如果相似度达到了所设置的阈值,那么就认为本体映射任务成功。本文利用Lucene评分机制的特点,对Lucene原有的评分机制做了相应的改进,根据各评分因子的重要性,使评分覆盖到更广的范围,更具有一般性。本文通过一系列的实验,确定了最适合本方法的相似度设定阈值,并且针对改进的Lucene评分机制,通过实验确定了各个设定因子的值。而且通过LselOM与其它的基于语言层上的本体映射方法比较,由于本文提出的本体映射方法是基于Lucene的,不论是在性能上、查准率上和查全率上都有相当的优势,而且它的复杂性对于用户来说也几乎是透明的。