论文部分内容阅读
本体是一种重要的知识表示形式,它是共享概念模型的明确的形式化规范说明,并在语义Web、知识工程、软件工程、生物医学信息学和社会化网络等领域中得到广泛应用。然而,本体创建的主观性、分布性和自治性特点导致大量异构本体的产生,阻碍系统间的语义交互。本体异构成为基于本体的很多应用面临的挑战之一,本体映射则是解决本体异构的主要手段。本文对通用本体映射方法、大规模本体映射处理、本体语义映射和映射结果调试等本体映射研究中的关键问题进行了深入探讨,主要研究成果包括:
(1)提出一种利用语义子图降低映射不确定性影响的途径。通过分析元素语义在本体图中的表示特点,利用电路模型实现语义子图的抽取。语义子图可准确描述元素在特定本体中的语义,因此,以语义子图为基础构造的映射线索更具可信度,采用这种映射线索的映射方法能在一定程度上降低映射不确定性的负面影响。
(2)提出一种有效的通用本体映射方法。在语义子图基础上,提出一种通用本体映射方法,其中包含两个新的匹配器:基于语义描述文档的文本匹配器和基于强条件约束相似度传播的结构匹配器。文本匹配器根据语义子图构造元素的语义描述文档,通过语义描述文档的相似性判断元素间的匹配。结构匹配器用于解决缺乏规则文本信息情况下的本体匹配问题,它采用了一种适用于本体图三元组的强条件约束相似度传播算法。公开数据集上的大量实验结果表明,该通用本体映射方法的效果优于目前大多数同类系统。
(3)提出一种新的大规模本体映射方法。利用大规模本体中的结构特点和映射的区域性特点,提出一种基于锚点的大规模本体映射方法,该方法利用正锚点和负锚点动态预测匹配计算中可跳过的大量位置,从而达到提高映射效率的目的。正锚点由概念层次结构确定,负锚点根据映射区域性特点确定。匹配过程中的相似度计算是独立的,利用语义上下文快照可近似处理相似度计算中的全局分析。该方法能有效处理现有很多实际大本体匹配任务,是目前仅有的几种针对大规模本体映射问题的具体解决方案之一。
(4)提出一种基于Web知识的本体语义映射方法。尝试将Web信息作为背景知识库来辅助发现语义映射,其中利用搜索引擎获取Web知识。语义映射中,本体概念间语义关系的判断被转换为搜索引擎查询,即根据查询结果判断对应的语义关系是否存在。查询Web知识库得到的候选映射集经过修正、去除冗余和冲突等处理后,最终提取出语义映射。该方法是对现有基于传统知识库的语义映射方法的一种补充。
(5)提出本体映射调试技术。将映射结果中存在的问题划分为冗余映射、错误映射、不精确映射和异常映射。本体映射调试技术通过启发式算法,检测映射结果中存在的各种问题,并进行自动处理或给出修正建议。在本体映射中使用映射调试技术能起到优化和提高映射结果质量的作用。
本文在上述工作基础上,研发了本体映射系统Lily,它是一个本体映射研究的实验平台,用于验证论文中的研究思路和解决方法的正确性和有效性,对本文工作起到了重要的推动作用。Lily在公开的评估中取得了良好成绩。