论文部分内容阅读
随着市场竞争的加剧,社会对信息的需求量日渐上升,从大量数据中提取所需要的信息进行决策显得更加重要,传统的数据库系统已经无法满足要求。随着数据库技术的发展,一种支持决策的、特殊的数据存储技术应运而生,它就是数据仓库。获取信息的能力是判断一个数据仓库系统是否先进、完善的标准之一,在一个数据仓库中存放的信息大多数是数据。为了构造一个完善的数据仓库系统,首要任务就是设计一个高效、严谨、符合数据仓库特点的数据存储结构。数据仓库是在数据库的基础上发展而来,它的存储结构与绝大多数关系数据库有类似之处,因此完全可以针对已有的数据库产品,改造其数据存储结构,使它能够满足数据仓库的特点。本文在绪论部分首先简单介绍了数据仓库的定义、作用和特点;然后分析了当前开源两大开源数据库产品——PostgreSQL和MySQL的数据存储特性;接着根据数据库和数据仓库的特点,从数据和系统设计两方面对它们分别进行比较;最后分析了数据仓库中数据存储方面的研究现状,指出当前数据仓库的研究领域偏向数据仓库的应用,而关于数据仓库底层实现方面的研究却极其罕见。本文的第二章主要从数据仓库的物理存储角度讨论存储大量数据的技术。随着计算机技术的发展,计算机系统不断对存储器系统提出高速和大容量要求。为了能够在合理价格下满足既要高速,又要大容量的要求,采用存储器层次结构技术能够使存储器的性价比达到优化,从而满足越来越高的要求。存储器的层次结构由高速缓冲存储器、主存储器、第二级存储器和第三级存储器组成,其中数据仓库的数据大部分存储在以磁盘为代表的第二级存储器中。为了对磁盘上的数据进行高速有效地读写,本文对磁盘的结构和特性进行了分析,并提出了四种改善磁盘访问性能的方法。本文的第三至五章属于核心部分,以具体的设计和实现为主,以理论研究为辅。本文的第三章根据商业数据库的现有模型,针对数据仓库的特点,提出了一种基于数据仓库的数据存储层次结构模型,并对该模型中各个层次的逻辑结构进行设计与实现,包括数据块和记录存储结构的设计、数据块内记录操作的实现、簇和段结构的设计等。本文的第四章以索引为主题,简要介绍了一般的顺序索引的概念,并对一种特殊的顺序索引——B+树索引进行了重点的、深入的分析、设计和研究,包括B+树索引的存储结构设计、B+树索引的创建、B+树索引操作的实现等。本文的第五章由缓冲区和文件两部分组成。在缓冲区管理中,本文介绍了缓冲区管理的工作原理和两种常见的缓冲区管理策略并对缓冲区管理器的结构进行了设计,实现了缓冲区中块的查找方法,并提出了一种新的块的替换策略。文件部分主要设计了文件和文件组的存储结构,并简单介绍了文件组的概念。最后,总结了本文的研究成果,指出了数据仓库底层实现的研究和发展的方向。