论文部分内容阅读
随着异构本体的规模不断增大,当前的本体映射算法在处理大规模本体时会遭遇严重的效率问题。目前针对大规模本体映射大多采用先分块,再在分得的小块间进行块内映射。但是,对大本体进行分块,以及对相关小块的映射操作会增加很大的开销,并且分块比如会造成一定程度的语义缺失。本文将从参考点出发,充分利用已有映射信息,寻找一种高效的针对大本体的映射算法。
首先,论文简单介绍了课题的研究背景,总结了大规模本体映射相关技术的研究现状。
其次,采用概念类型技术,设计了参考点自动查找模块,通过该模块快速获得参考点(在名称上相似的概念)。利用访问局部性原理,设计了带冲突避免的扩散映射算法。该算法采用单边标记策略,选取待映射本体中的其中一个为基准,首先比较参考点附近的邻居概念,根据邻居概念的映射情况检查参考点是否为错误映射,且映射的邻居概念成为新的参考点并标记。然后对新的参考点迭代进行扩散映射,直到找不到新的参考点为止。
再次,在扩散映射过程中,参考点附近的邻居概念构成候选映射集合,设计集合内映射算法:以两个候选映射集合为向量空间,构建虚拟文档,把每个待映射的概念表示成向量形式,根据两待映射概念的向量夹角余弦计算二者的相似度。该方法能充分考虑概念所处的语义环境,去除形同义异的概念和发现义同形异的概念。
最后,设计实验,对比分析,显示本文算法拥有以下特点:1.本文支持参考点的自动生成;2.扩散算法把候选映射概念集始终限制在参考点附近,极大的减少了映射的时间复杂度;3.扩散算法支持1∶n映射;4.基于结构相似度的参考点检测算法能消除由自动搜索参考点模块产生的在名称上相似而实际不相似的错误参考点对;5.带冲突避免的映射操作能同时提高映射效率和质量。