基于列存储的数据复用研究与实现

来源 :东华大学 | 被引量 : 3次 | 上传用户:wjief
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起与飞速发展,大量的信息迎面而来,如何用科学的方法整理数据,从而从不同的视角对各方面信息进行准确判断,比以往更为迫切,更受关注。数据仓库作为数据集成的框架之一,是解决大数据环境下分析型应用问题的有效手段。数据集成中不同数据集之间存在较大的冗余,需要的存储较多,对查询响应速度的影响也较大。数据仓库往往需要采用数据复用策略使得分析大量数据的成本趋于合理。在传统的关系型数据仓库中,数据均是按行存储的。遗憾的是,由于不同数据集中关系表的模式在存储层次上往往不相同,彼此之间的冗余度很小,导致按行存储的数据存储方式并不利于数据复用的实现。列存储数据仓库中,操作的对象变为列,属性之间的冗余度较大,从而消除了行存储数据仓库在数据复用领域的不利条件。为此,本文对如何将数据复用有效地融入到列存储数据仓库中进行了研究。1.首先,论文阐述了海量数据环境下数据复用的重要意义,并对数据复用技术的发展历程和国内外列存储数据仓库中关于数据复用的现状进行了分析,总结了它们的特征和不足之处。2.然后,论文对列存储数据仓库中数据复用的核心元素进行了简单地介绍,其中包括数据复用策略的概述,可复用数据的定义,查询结果的等价原则等。3.随后,本文深入研究了列存储数据复用策略的结构设计,其数据复用策略主要由候选可复用数据发掘模块、可复用数据筛选模块、基于存储的数据复用实现模块和基于可复用数据的查询执行模块四个模块组成。其中,候选可复用数据发掘模块描述了海量数据中利用CM模式匹配算法快速寻找候选映射关系的合理方案;可复用数据筛选模块则根据映候选映射关系对属性值进行逐一匹配,得到确定的可复用数据,这是数据复用实现的必要保证;基于存储的数据复用实现模块则封装了具体复用的细节,并负责对外提供数据访问的统一接口;查询执行模块对传统查询执行流程进行了相应的改进,从而了在可复用数据的基础上实现SQL语句的直接查询。4.最后,本文以DWMS为平台,分别以真实数据集和基准数据集为测试数据,具体实现了上述各项关键技术。通过对相关的性能测试结果进行对比分析,验证了本文所述内容的正确性和有效性。在处理海量数据时,数据复用在减少列存储数据仓库存储规模的同时,还进一步优化了系统的查询性能。
其他文献
随着网格计算、普适计算以及计算机通讯技术的快速发展,人们越来越希望能把资源、软件及应用更好地整合在一起,并以服务的形式向外提供给用户,因此云计算应运而生。为了实现
随着多媒体时代的到来,图片作为传递信息的主要媒介,已经成为人们表达情感、进行社交活动的主要工具。然而图像数量的爆炸式增长,需要人们耗费越来越多的时间去检索出满足需求的
中国书法是中国传统文化的重要组成部分。随着数字化技术的不断发展,越来越多的书法作品被数字化并保存到了数字图书馆中。用户在浏览欣赏数字化的书法作品的过程中,往往希望
远程数据采集是设施农业、工厂设备监控、环境监测等领域的重要技术手段之一。它集微控制器技术、嵌入式软硬件设计技术、传感器技术、数据通信技术等于一体,是当前和今后一
网络是20世纪后半叶对人类社会贡献最大、影响最深远的发明之一。网络对社会的影响超越了过去任何时代的信息传递手段,是人类社会全球化的主要推手和平台。但事物都有两面性,在
行人检测在车辆自动行驶、社区智能监控、人机交互、战争监控等领域有广泛的应用,是当前计算机视觉领域的研究热点之一。论文以单视点固定摄像头和移动摄像头行人检测为研究对
软件产品越来越多的应用到人们的生活中,如何保证软件产品质量成为了重要问题。目前的软件产品开发主要是基于软件组件的软件开发,软件组件质量成为了软件的保障,然而软件组件的
纤维成份自动检测是涉及图像处理、模式识别、计算机视觉等多个领域的研究课题。传统纤维检测方法存在诸多弊端,随着计算机图像处理技术的不断发展,纤维自动检测和识别的研究
无线传感器网络(Wireless Sensor Network)由部署在监测区域内大量的廉价微型传感器节点组成,这些节点通过无线通信的方式形成一个多跳自组织网络,其目的是协作感知、采集和处理
地面自主机器人是以环境感知、模式识别、智能决策和规划技术为核心的地面自主系统。计算支撑系统则是支持地面自主机器人进行分布式计算的软件框架。计算支撑系统的设计影响