论文部分内容阅读
Linked Data的发展带动了各领域以RDF格式开放领域知识库,由此带来了如何高效组织和管理海量RDF数据的问题。目前,基于关系数据库或NoSQL图数据库的存储模型,都不同程度地暴露了查询效率的问题。综合以上两种主流存储模型,本文提出了底层磁盘采用基于列的关系存储模式,并且在内存中构建RDF图模式的分布式存储方案。论文首先列举目前常见的RDF存储方式,分析了各自的优缺点,并论述了基于列数据库MonetDB和图模式缓存管理大规模RDF数据集的可行性,然后提出了系统架构:在磁盘上,基于MonetDB采用列式划分算法存储RDF数据集,同时,将部分RDF数据以图模式缓存在内存中;查询时,会优先查找内存,然后查找数据库,减少磁盘访问,提高查询效率。主要实现了以下几点:(1)基于列式数据库的RDF分布式存储;(2)内存中构建RDF图模型;(3)存储节点处理SPARQL查询的机制,包括缓存查找和数据库查询;(4)合并最终的结果集,并且提取出需要的数据;(5)通过开放数据集,验证了该模型在数据存储、查询方面的性能优势。