论文部分内容阅读
在目前激烈的市场竞争中,企业要想在竞争中立于不败之地,决策者必须要做出快速、及时、准确的决策。这些决策的选择不再仅依据决策者的主观感觉和经验,更主要来源于对企业过去业务数据的分析,他们需要对这些数据进行不同角度的分析。根据对这些数据的分析结果,预测未来的商业趋势。若要有效、高效的分析历史数据,就必须对其进行合理的组织与存储。 本文讨论了数据在磁盘中的存储以及组织结构,同时,为了提高查询分析的效率,还要为数据文件建立多种索引;要对多维数据仓库中的多维数据进行粒度的划分;对数据进行分割;对休眠数据进行处理等。粒度是数据仓库中数据单位的细化或综合程度的级别,越详细的数据粒度越小。粒度越大,查询效率越高,占用的存储空间少,但能完成的查询也就越少。数据分割是对数据仓库中的细节数据进行分割,通常的分割标准有:按时间分割、按地理位置分割等。数据量的大小是决定分割的主要因素。休眠数据管理是指对以后不用的数据从要进行查询分析的数据仓库中剔除。这样可以在查询时减少扫描的次数从而提高效率。 这里介绍了两种方法可以存储多维数据,一种是以二维关系表的形式存储,一种是以多维数组的形式存储,分别对应ROLAP与MOLAP。关系表存储法也就是用维表和事实表存储多维数据。用维表记录多维数据中的维度,用事实表记录多维数据立方体各个维度的交点的度量值。由于在查询时要进行多个表之间的连接,因而响应时间比较长,但对于有大量空白数据的数据库来说,可以节约很多存储空间。多维数组存储法是直接处理存放在多维数组中的数据,这种数据已经反映了各种数据的组合,并且每个单元都可以直接访问,一般而言,查询速度比较快而且稳定。但在矩阵稀疏的情况下,会存在大量的数据空白点,从而造成大量的空间浪费。针对MOLAP中出现的空间浪费问题,我们要对其进行压缩存储。可以通过增加一个冗余的标志位的方法记录某种组合是否有实际可用的数据,在存储时只存储有数据的点,剔除空白点,达到压缩存储多维稀疏矩阵的目的。