列存储数据仓库中压缩技术的研究与实现

来源 :东华大学 | 被引量 : 9次 | 上传用户:lz1111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息成为企业生存发展的关键因素,从海量数据中提取和分析信息进而支持企业决策交得越来越重要。数据仓库作为分析海量数据的重要工具而备受关注。   今天,传统数据库管理系统采用的列存储方式已无法适应高效的分析型查询,列存储数据库存储架构开始受到重视。在数据仓库的分析型查询应用和商务智能应用环境中,列存储架构可以避免查询中读入无关列,比行存储数据库更具优势。   磁盘I/O是数据仓库的数据查询过程中最大的时间瓶颈,减少I/O次数能显著提高查询效率。列存储技术将相同数据类型的数据存放到一起,增加了相邻数据之间的相似性。所以,数据仓库采用列存储技术可以获得比采用传统行存储技术更好的压缩效率。因此,压缩技术是列存储数据仓库管理系统的重要研究内容。   本文根据列存储数据仓库管理系统的特点,设计并实现列存储数据仓库管理系统中压缩模型;设计并实现解压缩及压缩数据上的查询方案;提出经典的数据压缩算法在系统中的改良方案,即建立动态字典策略,将列级字典和区缀字典相结合;统计每个数据值在各区出现概率,从而支持建立精简轻量级列级字典,提高压缩率和查询性能。最后,通过在数据仓库基准数据集SSB上进行实验验证了本文方法的有效性。
其他文献
统一建模语言(UML, Unified Modeling Language)是一种非专利的可视化建模和规约语言。UML提供了开放的方法,用于系统说明、文档化、可视化构建面向对象的软件密集系统。然而
确定主机的地理位置是一项重要的网络应用服务,目前主要是通过查询IP到实际地理位置的映射数据库来获得主机的地理位置,IP地址库不易构建与维护,由于更新不及时、覆盖度低、粒度
摘要:有效均衡网络负载,避免能量空洞问题是无线传感器网络研究中一个基础且关键的问题,它直接影响着整个网络的生存寿命、通信性能和能量使用效率。结合无线传感器网络的通信
由于微电子微处理器微计算机系统先进的计算机技术和无线通信等技术的进步,促进了无线传感器网络的产生和迅速发展无线传感器网络能够将分布在监测区域内的具有信息采集功能,并
图像拼接是图像处理与计算机视觉领域一个日益流行的研究区域,其目的是将具有重叠部分的同一场景的两幅或者多幅图像拼接成一幅具有较高分辨率的全景图像。图像拼接技术能够解
随着无线通信技术的不断发展,作为无线通信载体的频谱资源短缺的问题也越来越严重。经过研究发现,造成频谱短缺的根本原因是传统的固定频谱分配方式造成的,所以动态频谱分配
即时通讯软件(如短信、微信、QQ、微博等)会产生海量的交互信息数据,它们与以往的数据有很大的不同,其以会话形式存在,主要特点在于数据中包含两个或以上的用户的消息。这些
近年来,金属矿山安全生产管理水平逐渐提升,但各类安全事故时有发生。在井下金属矿山突发灾难事故时,由于救援措施的迟滞性、矿工对于井下作业环境不熟悉等因素,从而给矿山带来了
近年来,随着无线通信技术和电子器件技术的发展,无线传感器网络(Wireless SensorNetworks,简称WSN)成为人类日益关注的新兴技术。无线传感器网络不需要固定设施,由大规模的传感器
随着网络移动终端用户数量急剧增长,如何保证网络终端用户在移动环境下的安全性成为研究的热点问题。HIP是一种综合解决主机移动性和安全性的有效方案,但其移动性管理实现机制