异构的语义Web环境下Ontology匹配问题的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zjpjwxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网是人类到目前为止构建的一个最大的信息库,全世界的用户都可以在Web上提供内容.当越来越多的人开始使用互联网时,Web上的数据开始以指数级规模增长,Web上的资源与服务也越来越丰富.未来Web的发展方向将是一个人和计算机"共存"的世界:智能agent代表其所有者,通过与Web上的各种服务和软件agent的交互,代替所有者在 Web上执行各种复杂操作. 现阶段 Web 上的绝大部分内容都是为人的阅读设计的,现有的软件agent还不能很好地集成Web上的各种页面和服务.Web的简单结构和匮乏语义极大地限制了 Web的进一步发展和应用,传统Web很快就达到了它的临界点,语义Web成为了未来 Web发展的方向. 通过给 Web 数据附加语义,理论上 Ontology 是一个语义Web上数据互操作的很好的解决方案.然而,在实际的Web环境中,语义异构或者说Ontology异构仍然是语义Web上一个不可回避的问题.语义的方法把Web上数据的异构性简化为Ontology之间的异构性,从而向机器之间的相互操作前进了一大步,但在达到最终目标之前还存在着一个障碍.任何试图改进语义Web互操作性的努力都最终地落在了协调不同系统之间的不同 Ontology上.这种协调通常能通过自动或者半自动地匹配Ontology达到.这篇论文的工作就是为了解决语义集成过程中必然会出现的Ontology匹配问题. 本文将主要研究在异构的语义Web的环境下,不同的Ontology之间的互操作问题.为了达成Ontology之间的相互操作,必须寻找Ontology之间的匹配关系.本文创造性地提出了基于数据实例分类的匹配模型DICM,使用多策略的文本分类技术,把Ontology的匹配问题归结为Ontology数据实例的分类问题,为异构的语义互操作问题提供了一条创新的可靠的解决途径.本文全面分析了Ontology匹配过程中可能出现的问题,然后对其中的三个问题进行了深入研究,包括Ontology概念结点的1-1匹配、Ontology属性的1-1匹配以及Ontology元素的1-n匹配和层次Ontology的匹配问题.我们设计并实现了一个实验平台SIMON,这个基于多策略学习的Ontology匹配系统被成功地运用于欧洲委员会信息社会总司的eTEN项目上(No.C510711).在该平台上,我们进行了大量的对比实验,实验结果验证了本文提出的模型和算法的有效性. 本文的贡献和创新性工作主要体现在以下几个方面: 1.本文从对Ontology的数据实例进行分类的角度构建Ontology匹配的体系结构,为异构的Ontology匹配提供了一个创新的、可操作的模型DICM.在该模型的基础上,建立了一个基于Ontology匹配的语义互操作系统SIMON以及用于测试匹配系统的数据实例库DIBOM,并在一些实际的应用领域中取得了良好的匹配效果. 2.本文使用多策略的匹配学习方法寻找Ontology之间的匹配关系.我们的匹配学习方法尽量充分地并且分层次地挖掘数据实例当中隐含的信息,包括实例名、实例的内部特征以及实例之间的关联特征.我们在系统中除了使用通常的文本分类方法如朴素贝叶斯分类器来挖掘数据实例内部的分类匹配信息外,系统还引入一阶逻辑学习算法FOIL来分析数据实例之间的语义联系.为了结合单一分类器的结果,我们提出了创新的匹配委员会方法--最突出的冠军BOC方法,从而能够很好的累积单一分类器的正确匹配. 3.本文提出了一个完整的Ontology匹配系统的范例.由于我们拥有真实完整的数据实例库DIBOM,使得我们不但能解决Ontology之间概念结点的匹配问题,并且可以进一步深入地研究Ontology属性匹配问题.针对属性匹配的训练样本相对较少、对分类算法的精确度要求高的特点,我们把具有高分类精度的SVM算法引入到了DICM模型中;针对不同的属性类型,我们提出了匹配搜索器的概念.匹配搜索器以插件的形式存在,使得属性匹配系统高度模块化,易于共享及扩充;针对特殊的对象类型属性,我们提出了基于一阶逻辑的解决方案FOOPM. 4.除了解决简单的Ontology元素的1-1匹配之外,本文还研究了Ontology元素的1-n匹配和层次结构匹配这两类有代表性的复杂匹配问题.对于Ontology的1-n匹配问题,我们提出了基于优化搜索的MultiMatch方法;对于层次结构的Ontology结点匹配问题,我们提出了特征属性集合数据实例划分模型FPSDID和扁平化的层次Ontology匹配算法FHOM.
其他文献
随着软件系统的规模越来越大,业务越来越复杂,整个系统的结构和规格说明显得越来越重要。对于大规模的复杂软件系统,其总体的系统结构设计和规格说明的重要性已经远远超过了对计
随着嵌入式技术和网络技术的蓬勃发展,嵌入式Internet的应用已经遍及各行各业。由于一些服务行业、关键岗位对语音记录需求的不断增长,传统的录音设备在功能上、效率上和管理上
随着3G在全球电信市场的大规模商用,IMS受到了越来越多的关注,IMS被广泛的认为是NGN的核心网络技术,IMS希望可以为不同的用户、不同的业务提供不同的QoS保障,这就对IMS中QOS的管
随着因特网的蓬勃发展和社会信息化水平的日益提高,数据及多媒体业务的重要性越来越突出,实现网络与业务融合的需求也越来越迫切。而第三代移动通信的IMS域汇集了移动业务领域
计算机网络的快速发展,使得数字内容比如音频、视频产品在网络上的传播变得更加容易,由此衍生出的数字版权保护问题受到了人们的广泛关注。叛逆者追踪模型是实现数字版权保护
非线性理论由三大理论构成:混沌理论、分形理论、孤立子理论,它们是非线性这门学科的理论基础。基于非线性理论,本文研究了混沌和分形领域中的若干问题,具体研究内容如下: (1)
随着计算机技术和网络技术的不断发展,校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加,以及信息的分布存储,给用户检索信息带来
随着电子和网络技术的快速发展,智能手机及其应用也在快速发展中。智能手机处于智能终端的核心地位,智能手机、PC等智能设备之间如何传输信息,是我们研究的焦点。  Android系
近年来,固定和移动融合技术已经成为电信界的一个热门研究课题,IMS为电信运营商提供了统一的业务平台和网络融合基础,基于IMS的固定移动网络融合是网络演进的方向,经过对其网络融
无线通信和嵌入式技术的日益成熟和广泛应用推动了无线传感器网络的快速发展。无线传感器网络中,数据分发耗费了大量能量并占用了很多通信带宽。在满足数据精度的前提下,如何有