论文部分内容阅读
资源描述框架(Resource Description Framework,RDF)是语义网框架中的核心概念,用于描述Web资源,将各种不同领域的元数据整合起来,保证元数据交换时不丧失语义信息,实现网络资源的自动化处理。随着语义网技术越来越多的应用,对大规模RDF数据的存储和查询也越来越重要。目前,大规模RDF数据的管理方案主要包括以下三种:基于关系数据库的管理方案、基于三元组的管理方案、基于图的管理方案。这三种方案都有各自的优点和缺点,在面临海量数据时,查询处理效率较低,且不具备良好的可扩展性。本文通过对当前RDF数据管理技术进行总结与分析,借鉴已有的RDF查询优化技术,采用两级语义缓存的策略,提出了一种基于关系代数树缓存和基于谓词划分缓存的查询优化方法。在基于关系代数的缓存模块中,重用缓存中已有的子查询结果,提高了查询效率。在基于谓词划分的缓存模块中,取出缓存中已经存在的三元组模式的结果,提高了查询效率。对于缓存未命中的查询部分,将查询发送到底层磁盘进行处理,保证了查询的完整性。实验验证与结果分析表明,本文提出的查询优化方法能够有效的提高RDF数据查询效率。