论文部分内容阅读
因为需要存取大量的数据,计算data cube要花费大量的时间和存储空间.本文研究了使用便宜的PC机群计算data cube的方法.我们使用多维数组作为存储结构,并将数组划分成若干个分片,对每个分片进行压缩以节约存储空间、减少存取时间和增量维护时间,分片被分布到不同的处理机.我们提出了一个新的流水线组织方法以及对分片建立索引的思想,大大减少了外排序的代价和存取磁盘的次数.实验结果表明我们的算法具有一定的伸缩性.