论文部分内容阅读
数据仓库存储大量历史数据,OLAP应用涉及到对大面积历史数据的复杂查询,查询优化是提高OLAP响应速度的关键。目前最有效的方法是增加综合数据的存储,但存储空间的有限限制了综合数据的存储量。本文从数据仓库的概念模型和逻辑实现两个层面对这个问题进行了深入的研究。 在数据仓库的概念层上,本文首先对多维数据模型的结构进行了研究,从理论上证明了当所有维的结构满足有界格时,多维数据模型的结构也是有界格。这为基于搜索格的优化策略奠定了理论基础。 本文提出了一种分介质、变粒度存储策略。将大量直接访问率低的详细数据存储在大容量低速介质(如磁带)上,并将这些存储在低速介质上的数据聚集成粒度相对较粗的综合数据存储在数据仓库中供OLAP分析处理;本文根据数据的访问频率动态调整需要存储到低速介质上的详细数据及其在数据仓库中需要聚集成的粗粒度数据,并提出了相应的动态调整算法。试验结果显示该策略能有效提高OLAP响应速度,减小数据仓库中的数据存储量。 在存储空间一定的情况下,压缩数据仓库的体积同样能增加综合数据的存储量。本文从数据仓库的逻辑实现角度上分析了数据仓库中大量存在的基本单一元组问题,结合XML技术提出了一种基于XML格式的OLAP实现方式——X-OLAP,用XML本身的层次结构来表示不同粒度之间的聚集关系,证明了所有OLAP操作都可以在X-OLAP上实现,其代数操作的完整性和封闭性成立。该实现方式能有效地压缩数据仓库的体积。 论文最后对全文进行了总结,并对OLAP的发展方向进行了展望。