宽表列存储在大数据分析中的应用与优化

来源 :2017中国数据库技术大会 | 被引量 : 0次 | 上传用户:siyuezaici
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相对于行存,列存极大提高了宽表上分析负载的I/O性能,当一个查询只访问1000列中的20个时,无须读取整个数据块,最大限度减少了所读取的数据量。
其他文献
报告一个规模超上千个节点Hadoop集群的[硬件规划,软件规划,网络规划,应用规划]设计,综合考虑了集群头节点的高可用设计,元数据的备份恢复设计,读写流量分离,多租户,安全审计设计,集群冗余设,结合应用场景,结构化(文本和数据表)和非结构化数据(影像)的等不同并行处理方式,并探索深度学习和Hadoop分布式融合等规划.
会议
数据可视化不仅是一门包含各种算法的技术,还是一个具有方法论的学科.数据可视化不仅是在信息丛林中找到方向的最好方法,还能帮助人们并发现全新的视角.
数据存储方式有EMC、HP、Dell Storage、SSD、Pcie等,SSD在MPP(Greenplum)中加速,Pcie在RDB(Sqlserver、Mysql HA、LB)使用。
飞谷私有云解决大数据开发者本地搭建大数据环境的不稳定问题,解决公有云搭建hadoop后开发运维管理的不方便问题,解决学员个性化学习实战项目多hadoop版本环境共享数据源问题。
适用于云端的Oracle Database 12c R2使用在线克隆,刷新和在线迁移实现敏捷,支持4096 PDBs,对于一些全球范围的应用程序能使用原生的数据分片实现弹性扩展.
在基于互联网环境的创新业务场景中逐渐开始应用开源数据处理技术,MySQL,Redis,MongoDB三大技术为主,IMDG类为辅,单一集群规模不大(~10节点以内),但随业务规模的集群数量较多,通常运行环境与云环境(IaaS)关联度较高,相比于性能,更关注高可用和安全性。
商业智能分析中常用到的分析方法有预警分析、进度分析、纵向对比、横向对比、各种对比等对比分析,有构成分析和杜邦分析等结构分析,还有透视分析以及其他分析方法。
弹性数据库在线动态扩容技术提高了系统可用性、稳定性,提供了数据库日志消费、中间件处理、自动运维管理等一站式技术方案,兼容原有应用系统,利于系统升级、迁移。
介绍了Pivotal Greenplum 5.0开放源代码数据库的高速数据加载、多态存储、并行执行、敏捷开发方法学等内容。