论文部分内容阅读
随着科学研究的发展,在各个研究领域都产生了数以拍(Petabyte)计的海量数据,比如基于地理位置坐标的空气质量信息,类似的这些数据都有自身的组织特点——多维数组模型结构。 尽管在商业领域关系数据库系统和Key-Value数据库系统都有了广泛的应用,并且取得了巨大的成功,但到目前为止,由于科学研究领域数据的结构不同与传统的数据,使得此类商业数据库系统在科研领域的应用面临着很多难以克服的问题。关系数据库系统和Key-Value数据库在存储和处理多维数组模型数据时改变了数据的天然数组模型结构,使得后续的数据管理的过程变得过于复杂,从到导致数据很多却找不到有用信息的困境的产生。商业数据库系统已经不能满足科学数据处理的需求,需要研究和开发针对科学数据管理的系统。 论文着手研究分析科学数据管理的需求,结合科学数据的多维数组模型结构特点,针对目前科学领域的相关的应用,设计并实现了一个命名为SDBM的科学数据管理原型系统。在系统架构方面,SDBM采用了无共享分布式架构,通过可靠的消息和任务机制保障系统的稳定性;在存储管理方面,SDBM设计了一次性写入型的只读多维数组模型,通过一种高效的版本控制方法,保证数组数据的动态更新和高效压缩存储以及通过数组分块实现数据的分布式存储;在数据查询方面,SDBM实现了简单的函数式编程语言AFL,并提供了用户查询接口和编程接口。最后以SDBM原型系统为支撑,开发了天文望远镜系统和FITS文件管理系统,得以验证SDBM系统的可行性。