论文部分内容阅读
随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line Analytical Processing)技术在商务智能系统以及决策支持系统中扮演着重要的角色,它们使得企业可以高效的处理、分析大规模数据。随着在多维数据中处理不确定性的需求增加,对于不确定数据上的OLAP研究也成为一个有价值且有吸引力的话题。传统的多维数据模型不能很好地支持不确定数据。由于不确定性的引入,数据存储模型中需要加入对概率信息的存储,同时数据查询以及多维分析计算具有了不同的语义,不仅需要考虑属性值还需要考虑概率对结果的影响。这些都为传统多维数据模型带来了挑战。 本文对不确定数据上的多维分析方法进行了设计与实现,设计了不确定数据在多维模型下的存储模式以及其上的聚集操作和多维分析操作,并提出了两种索引技术提高计算的效率。主要研究内容包括: 提出了支持不确定数据的多维存储模式,称为不确定星型模式。从事实表中的维属性的不确定性、事实表中的度量值的不确定性、维表中的属性的不确定性三个方面对传统的星型模式进行了扩展,使之可以支持多维数据中的不确定性: 设计了不确定星型模式上的多维分析操作,定义了满足可累积特性的聚集操作语义,并设计了线性时间的立方体计算方法: 设计了支持概率的倒排索引结构,并提出了使用该索引进行高效立方体计算以及多维操作的计算方法; 改进支持概率的倒排索引,提出了新的概率桶索引结构,并设计了高效的算法,使用剪枝技术提高冰山立方体的计算效率; 本文进行了大量的实验,采用物联网应用中的数据模型以及人工生成的多个数据集,验证了多维操作的可行性以及索引对查询带来的效率提高。