论文部分内容阅读
在信息科技飞速进步的今天,各类信息系统被普遍地使用。然而,因为信息平台的创建具有阶段性、目的性和分散性等,数据异构性问题随之产生。数据异构问题的存在导致了各信息系统之间的通信变得困难,信息难以得到有效的共享,信息孤岛现象普遍存在。为了适应信息社会的发展,使信息得到高速、有效的利用,就必须实现异构数据集成,现阶段要实现异构数据集成的当务之急就是解决语义异构问题。本文针对语义异构问题提出了基于本体的多策略相似度混合的方法。首先阐述了异构数据集成的概念、类型和目标,总结分析了几种现存集成方法的优缺点,详细介绍了本体及本体映射中的一些关键的技术及作用,提出了本文的集成系统的总框架,从用户应用层、中间集成层和异构数据层三个层次对该系统进行了介绍。接着对数据集成中本体映射技术进行研究,着重对本体映射中的相似度计算方式进行研究。在对现有的映射算法进行了分析后,发现这些算法中普遍存在着计算量大、自动化程度低、通用性差和算法单一的问题,针对这些问题提出了W-NPSI映射系统,该系统包括概念特征提取模块、概念集筛选模块、多策略映射模块和结果处理模块:概念集筛选模块中提出了基于WordNet计算概念相关度的算法,根据词语在WordNet位置关系计算出词语相关度,进而推算出概念相似性而筛选出候选概念集的方法,解决计算量大的问题;多策略映射模块设计了自适应相似度聚合器,其中心思想是以自适应计算权值的方法,提高系统的自动化程度;多策略映射模块中提出了混合概念名称、属性、结构和实例四大特征相似度的多策略混合的算法,该方法能够有效地提高映射的效果和改善系统的通用性,并解决了算法单一的问题。最后,采用OAEI(OntologyAlignment Evaluation Initiative,本体一致性评估计划)提供的benchmark数据集来验证本文提出的基于多策略混合的映射算法。通过对实验结果的分析,证明该算法可以在保证查全率和查准率的同时,有效地减少计算量,降低算法的时间复杂度和空间复杂度。