论文部分内容阅读
关系数据库管理技术作为当今IT领域最成功的软件技术之一,已经成为了世界范围内几乎所有的商业、政务、金融和科技活动的基础。然而,随着信息技术的不断发展,计算机和互联网的不断普及,个人数据信息急剧膨胀,Web也日益成为一个巨大的信息共享平台,数据管理随之呈现出一些新的特点:一是增长迅猛;二是信息共享;三是资源多样化;四是异构分布。数据管理呈现出的这些新特点使得传统的数据库技术已不能满足新时期复杂数据管理的新要求。数据空间是针对传统数据库技术所面临的种种挑战而提出的一种新的信息管理抽象,通过提供一套相关的数据管理服务与机制,使得应用开发者可以集中精力解决特定的应用问题,而不用疲于应付反复出现的、大量相关而又各异的底层数据管理与访问。本文基于已有的数据空间研究成果,重点针对有效组织数据空间中的数据资源、挖掘数据空间中数据资源之间的关联关系以支持语义查询进行研究。首先,将数据空间分为物理层、逻辑层和应用层三层结构,提出了PAD模型和CKP模型,分别用来表示逻辑数据层中的逻辑实体和逻辑实体集合。其次,利用领域本体知识来挖掘领域层次对象之间的关联关系,然后根据属性模式信息对数据资源实体进行解析从而得到一个基于对象关键字的数据资源逻辑结构层次图。再次,将领域本体关联关系向下延伸和数据资源逻辑结构层次图进行结合,从而得到数据资源之间的直接关联关系。然后利用数据挖掘中挖掘频繁项集的方法,从基于相同关键字的逻辑实体集合中挖掘频繁项集,从中发现数据资源之间的间接关联关系。接着,引入关联关系置信度计算公式,为数据资源之间的每一个关联关系计算置信度,最终得到一个完整的带有置信度的数据空间数据资源关联关系图。利用该关联关系图可以进行数据空间的关键字查询、结构化查询和语义查询。实验主要从领域本体关联关系和逻辑实体集合对数据资源关联关系的影响、数据资源关联关系对数据空间查询的支持等方面对相关算法进行准确性和效率等方面的验证,通过这些实验验证了本文提出的模型和算法的可行性。