基于不确定数据的多维分析方法的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:honfei1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line Analytical Processing)技术在商务智能系统以及决策支持系统中扮演着重要的角色,它们使得企业可以高效的处理、分析大规模数据。随着在多维数据中处理不确定性的需求增加,对于不确定数据上的OLAP研究也成为一个有价值且有吸引力的话题。传统的多维数据模型不能很好地支持不确定数据。由于不确定性的引入,数据存储模型中需要加入对概率信息的存储,同时数据查询以及多维分析计算具有了不同的语义,不仅需要考虑属性值还需要考虑概率对结果的影响。这些都为传统多维数据模型带来了挑战。  本文对不确定数据上的多维分析方法进行了设计与实现,设计了不确定数据在多维模型下的存储模式以及其上的聚集操作和多维分析操作,并提出了两种索引技术提高计算的效率。主要研究内容包括:  提出了支持不确定数据的多维存储模式,称为不确定星型模式。从事实表中的维属性的不确定性、事实表中的度量值的不确定性、维表中的属性的不确定性三个方面对传统的星型模式进行了扩展,使之可以支持多维数据中的不确定性:  设计了不确定星型模式上的多维分析操作,定义了满足可累积特性的聚集操作语义,并设计了线性时间的立方体计算方法:  设计了支持概率的倒排索引结构,并提出了使用该索引进行高效立方体计算以及多维操作的计算方法;  改进支持概率的倒排索引,提出了新的概率桶索引结构,并设计了高效的算法,使用剪枝技术提高冰山立方体的计算效率;  本文进行了大量的实验,采用物联网应用中的数据模型以及人工生成的多个数据集,验证了多维操作的可行性以及索引对查询带来的效率提高。
其他文献
随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合
语义角色标注是浅层语义分析的一种主要实现方法。语义角色标注对句法分析的性能有着极强的依赖性。现阶段,正确率低的复杂自动句法分析已经成为语义角色标注的一个制约因素,
浏览器的评测与优化是自主CPU体系结构之上应用系统的重要研究内容之一。本文以UniCore体系结构为研究平台,以Firefox浏览器为研究对象,分析浏览器的总体架构和依赖环境,对浏览
近年来,软件服务化、云计算、物联网等新技术、新形态、新领域快速扩展,互联网作为一台计算机(Internet As A Computer)的概念逐渐为大众所接受,运行在互联网上的互联网应用
云计算是产业界、学术界、政府等各界均十分关注的焦点,是当前信息技术领域研究及应用的热点之一。它在资源合理应用及租用费用上的优势不容置疑,但其用户的隐私安全问题也备
生物特征识别技术作为新一代的身份认证技术,近年来己经走出实验室,越来越多的在社会生活中的得到广泛使用。本论文对于生物特征识别技术的一个新兴的分支——手指静脉识别技
几何建模是计算机图形学和计算机辅助设计中的一个基本问题。本文中,我们以产品设计为主要应用,对几何建模中几何体形状和位置的优化问题进行了研究。同面向图形学应用的几何
学位
相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语
随着多核技术、云计算技术的发展,我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下,内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影