基于立方体的复杂查询聚集方法研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:stanley_lippman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘(Data Mining)是二十世纪九十年代新兴发展起来的一门交叉学科,它是指从存放在数据库、数据仓库或其它信息库中的大量数据中挖掘有趣知识的过程,因此又称为数据库中的知识发现(KDD: Knowledge Discovery in Database)。 数据挖掘的一个主要特点就是其数据对象是大型数据集或信息库,如数据仓库或大型交易数据库等。数据(仓)库的基本特点是数据的多维特性,即用多个维属性描述数据对象的多个特征。根据数据挖掘任务对数据分析的复杂程度,可以分为单维数据分析技术和多维数据分析技术。单维数据分析是只取数据库中某个属性进行分析,如传统的关联规则就是只对交易数据库中的商品ID 进行分析,得出购买商品之间的关联特性。而多维数据分析是对数据库中的多个维属性同时进行分析,得出潜在有趣的知识和规则。由于多维属性潜藏着比单维属性更丰富的信息,因此多维数据分析已成为数据挖掘技术的一个重要研究课题,许多重要的数据分析工具和决策支持系统都建立在多维数据之上,如联机分析处理(OLAP: On-Line Analytic Processing)和联机分析挖掘(OLAM:On-Line AnalyticMining),多维数据挖掘(MDDM:Multi-dimensional Data Mining)。而且,越来越多的数据挖掘任务也从最初的单维数据分析发展到了多维数据分析,如多维关联规则,多维聚类,多维数据的孤立点分析等。 众多的多维分析技术中,建立在多维数据模型——立方体之上的多粒度聚集方法研究从一开始就受到了广泛的关注。立方体是多维数据的有效模型,用于对多维数据建模和数据聚集(汇总)。基于立方体的查询实现是决策支持系统的核心功能,其主要通过对多维数据不同角度不同层次的数据分析为实现快速信息获取提供支持。立方体查询技术中的核心部分就是多粒度上的有效聚集。因此,目前国际国内都对立方体上多粒度聚集的查询实现进行了相关的研究,产生了许多基于立方体的聚集计算的有效实现算法。 但是,较多的研究只是集中于仅含简单查询任务(如1 个查询)的立方体(称简单立方体)聚集技术实现;而含复杂查询任务(如多个查询)的立方体(又称复杂立方体或多特征方)聚集的实现技术则研究得较少。信息是竞争取胜的武器,基于立方体的复杂查询能够给用户同时提供更详尽更全面的信息,因此将成为用户查询需求的趋势,基于立方体的复杂查询的聚集技术也将是立方体技术发展的方向所在。 目前,仅有少量的研究文献涉及复杂立方体查询的实现。文献[1]提出了复杂立方体查询的扩展SQL 语言实现,[2]中提出分布和代数型复杂立方体查询的计算算法,算法基于相应的分布型(代数型)简单立方体查询算法。涉及复杂立方体查询的其他少量文献,同样只涉及分布型。国内外的研究中尚没有整体型复杂立方体查询的有效算法,同时也没有能充分利用复杂立方体查询的内在特点提出更有效的复杂立方体查询聚集方法。 目前,立方体技术中涉及部分粒度的聚集计算的也还是集中在简单立方体查询,但还没有复杂立方体查询中的部分粒度研究。完全粒度计算优点是对数据能全方位多角度地观察和分析,缺点是计算代价太大,没有给用户选择的余地。相对于完全粒度计算,部分粒度上的聚集计算和查询实现是适应用户个性化查询的要求,符合信息查询的多样化趋势。 新的多数据库挖掘思想保持了数据的分布式存储特性,局部挖掘,综合分析,已经成为数据挖掘技术发展的一个新热点。基于这个趋势,为多数据库挖掘服务的多立方体联合聚集的思想应运而生,这也是数据挖掘技术和数据库技术发展的要求。 基于以上所述,以基于立方体的复杂查询的聚集计算方法为研究重点,具体工作包含以下几点: 第一,提出一种整体型复杂立方体查询的计算方法,以部分分布聚集特性为主,结合冰山查询(Iceberg Query)技术和Cache 重用技术,并综合此三策略生成PDIC 算法。该算法能有效实现整体型复杂立方体查询的聚集计算,与朴素方法相比,效率提高显著。实验在模拟数据和真实数据集上进行,实验结果显示了提出方法的可行性和高效性。 第二,提出了基于Cache 重用的有依赖聚集的复杂立方体查询实现方法。对复杂查询中存在的三种依赖聚集,相应提出以Cache 重用技术为主的三种解决方法,提出的方法与传统计算方法相比,能有效节省内存空间,有效提高聚集速度。而且,提出的方法对分布、代数和整体型三类复杂立方体查询均适用。 第三,提出两种复杂立方体查询进一步发展的研究内容,包含部分(可选)粒度的复杂立方体查询聚集方法研究框架和为多数据库挖掘服务的多立方体联合聚集的研究框架。 部分粒度的聚集计算方法以用户的不同需求为前提,提出研究方案。多立方体联合聚集根据多数据集分布式存储的特点,使用并行聚集技术对多个数据集联合聚集,为多数据库挖掘中的模式发现和链接发现提供有利数据。
其他文献
发展智能安防系统,是解决城市化过程中出现的人民生命和财产安全威胁、重大安全事件后期数据排查处理困难等问题的有效途径之一,是未来安防系统的主要发展和研究方向。基于视
网格计算系统就是将地理分布、系统异构、性能各异的各种资源,包括超级计算机、大规模存储系统、个人计算机、各种设备等组织在一个统一的框架下通过高速互连网络连接并集成
测试驱动开发(Test-Driven Development,简称TDD)是一种可预测的软件开发方法,它是敏捷思想的重要体现,是极限编程的技术核心。它不仅在极限编程中广泛应用,同时也适用于其它开发
文件系统作为操作系统的重要组成部分,决定了操作系统本身信息和用户数据在存储设备上的组织方式。随着嵌入式系统硬件设备的普及和价格的不断降低,以及嵌入式系统应用领域的不
伴随着大数据时代的到来,数据呈爆炸性增长。如何有效地组织海量数据并从中提取有价值信息成为一个难题。深度学习模型是一个多层的神经网络,模拟了大脑皮层的层次学习结构,
入侵检测是一种能检测任何企图破坏资源完整性、保密性和可用性等入侵行为,并能采取对抗措施的技术。在网络安全问题日益突出的今天,如何迅速而有效地利用入侵检测系统发现各种
近年来,信息社会的飞速发展引发了数据规模的爆炸式增长,大数据问题逐渐引起了研究者的广泛关注。然而,大数据问题表现出与传统科学计算问题不同的负载特性,使得通用处理器面
无线传感网在许多大范围监测领域都有广泛的应用,在环境监测、军事侦察等领域都有规模化的应用。无线传感器节点通常被部署在环境恶劣的无人值守区域,容易节点受损或者节点受
随着国内经济高速发展,民航客、货流量快速增长,国内大、中型枢纽和干线机场运行越来越繁忙。在传统的机场管理中,由于机场、空管、航空公司以及各驻场单位之间缺乏及时有效
随着计算机网络与信息技术的迅猛发展,网络办公自动化系统在企业的工作中发挥着越来越重要的作用,它在提高领导者的管理水平、推动信息化建设方面起着举足轻重的作用,企业为了提