论文部分内容阅读
随着信息成为企业生存发展的关键因素,从海量数据中提取和分析信息进而支持企业决策交得越来越重要。数据仓库作为分析海量数据的重要工具而备受关注。
今天,传统数据库管理系统采用的列存储方式已无法适应高效的分析型查询,列存储数据库存储架构开始受到重视。在数据仓库的分析型查询应用和商务智能应用环境中,列存储架构可以避免查询中读入无关列,比行存储数据库更具优势。
磁盘I/O是数据仓库的数据查询过程中最大的时间瓶颈,减少I/O次数能显著提高查询效率。列存储技术将相同数据类型的数据存放到一起,增加了相邻数据之间的相似性。所以,数据仓库采用列存储技术可以获得比采用传统行存储技术更好的压缩效率。因此,压缩技术是列存储数据仓库管理系统的重要研究内容。
本文根据列存储数据仓库管理系统的特点,设计并实现列存储数据仓库管理系统中压缩模型;设计并实现解压缩及压缩数据上的查询方案;提出经典的数据压缩算法在系统中的改良方案,即建立动态字典策略,将列级字典和区缀字典相结合;统计每个数据值在各区出现概率,从而支持建立精简轻量级列级字典,提高压缩率和查询性能。最后,通过在数据仓库基准数据集SSB上进行实验验证了本文方法的有效性。