论文部分内容阅读
由EMC赞助的IDC数字宇宙研究《从混沌中提取价值》指出,全球数据量每两年翻一番, 2011年创建和复制的数据量为1.8ZB(1ZB=106PB)。2005年以来,为处理大量数据,企业投资已达到4万亿美元。大数据将催生社会、技术、科学和经济的变革。
以前,我们习惯称大量数据为海量数据。从2010年下半年开始,大数据这个概念逐渐为人们所熟知。那么,大数据比海量数据到底多了些什么呢?EMC中国卓越研发集团首席技术官陶波表示:“大数据与海量数据从本质上讲并没有不同,两者都反映出数据快速增长的趋势。但是,海量数据主要是从存储的角度去考虑问题,而大数据除了包括数据存储,还包括商务智能和数据分析。”正是基于这种认识,EMC收购了数据仓库厂商Greenplum。其实,在大数据时代,企业对存储的要求也有变化,具备横向扩展(Scale-out)能力的存储越来越受到用户的欢迎。EMC收购Scale-out NAS厂商Isilon就是为了顺应这种趋势。Isilon与Greenplum的组合成了EMC进入大数据市场的敲门砖。
存储随需而变
美国一家知名的DVD租赁企业每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。一些美国金融企业甚至提出了分析即服务的理念。陶波表示,金融、电信、互联网等企业对大数据的处理和分析有迫切的需求。与传统的商务智能应用相比,大数据对企业数据的处理能力和商务智能软件提出了更高要求:首先,企业必须具备处理大量数据的能力,因为有的企业可能一天之内就要多次处理PB级的数据,这是一些传统的存储设备所不能胜任的;其次,传统的数据仓库软件是针对结构化数据设计的,而大数据包含的主要是非结构化的数据,因此传统的数据仓库软件必须改变。
谈到大数据对存储的影响,陶波表示,具有横向扩展能力的存储才能更好地处理大量文件。Isilon集群NAS产品的主要技术优势就是横向扩展能力。最新的EMC Isilon IQ 108NL采用3TB企业级Hitachi Ultrastar驱动器,在单一文件系统和单个卷中,其容量可超过15PB。EMC还推出了Isilon SmartLock数据保留软件应用,可保证大数据从收集到归档的完整性和连续性。随着大数据时代的到来,NAS存储将大行其道。为了提高系统的处理性能,SSD在存储中的应用也会越来越普遍。
云计算和大数据相辅相成
为了满足大数据的需求,商务智能软件必须改变。陶波举例说:“随着多核处理器的普及,商务智能软件也要从针对单线程的应用转为针对多线程的应用,因此商务智能软件的代码可能要改变。”EMC已与许多商务智能软件厂商开展了紧密合作。EMC的硬件平台不仅针对Greenplum软件进行了优化,而且还能广泛地支持第三方的商务智能软件。
今年5月,EMC针对常用于数据密集型分布式应用的Hadoop开源软件推出了一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备(Data Computing Appliance)。该设备结合了Hadoop和EMC Greenplum数据库,在一个单一、无缝的解决方案中实现了对结构化和非结构化数据的协同处理。此外,EMC还推出了面向Hadoop的EMC Greenplum HD社区版和EMC Greenplum HD企業版软件。
陶波表示,在大数据时代,如何同时处理好结构化数据与非结构化数据对厂商和用户来说都是一个挑战。EMC正在对此进行进入研究。
目前,Greenplum有一半的工程师在中国。Greenplum产品的一些重要功能也是在中国研发的,比如Greenplum与Hadoop、VMware虚拟化平台以及云平台的结合都是在中国完成的。云计算将成为大数据处理的一个支撑平台。许多中小企业可以在云平台上进行深入的数据分析。
以前,我们习惯称大量数据为海量数据。从2010年下半年开始,大数据这个概念逐渐为人们所熟知。那么,大数据比海量数据到底多了些什么呢?EMC中国卓越研发集团首席技术官陶波表示:“大数据与海量数据从本质上讲并没有不同,两者都反映出数据快速增长的趋势。但是,海量数据主要是从存储的角度去考虑问题,而大数据除了包括数据存储,还包括商务智能和数据分析。”正是基于这种认识,EMC收购了数据仓库厂商Greenplum。其实,在大数据时代,企业对存储的要求也有变化,具备横向扩展(Scale-out)能力的存储越来越受到用户的欢迎。EMC收购Scale-out NAS厂商Isilon就是为了顺应这种趋势。Isilon与Greenplum的组合成了EMC进入大数据市场的敲门砖。
存储随需而变
美国一家知名的DVD租赁企业每年都会邀请一些协同处理算法的专家对其用户数据进行分析,从而了解租赁客户的需求。一些美国金融企业甚至提出了分析即服务的理念。陶波表示,金融、电信、互联网等企业对大数据的处理和分析有迫切的需求。与传统的商务智能应用相比,大数据对企业数据的处理能力和商务智能软件提出了更高要求:首先,企业必须具备处理大量数据的能力,因为有的企业可能一天之内就要多次处理PB级的数据,这是一些传统的存储设备所不能胜任的;其次,传统的数据仓库软件是针对结构化数据设计的,而大数据包含的主要是非结构化的数据,因此传统的数据仓库软件必须改变。
谈到大数据对存储的影响,陶波表示,具有横向扩展能力的存储才能更好地处理大量文件。Isilon集群NAS产品的主要技术优势就是横向扩展能力。最新的EMC Isilon IQ 108NL采用3TB企业级Hitachi Ultrastar驱动器,在单一文件系统和单个卷中,其容量可超过15PB。EMC还推出了Isilon SmartLock数据保留软件应用,可保证大数据从收集到归档的完整性和连续性。随着大数据时代的到来,NAS存储将大行其道。为了提高系统的处理性能,SSD在存储中的应用也会越来越普遍。
云计算和大数据相辅相成
为了满足大数据的需求,商务智能软件必须改变。陶波举例说:“随着多核处理器的普及,商务智能软件也要从针对单线程的应用转为针对多线程的应用,因此商务智能软件的代码可能要改变。”EMC已与许多商务智能软件厂商开展了紧密合作。EMC的硬件平台不仅针对Greenplum软件进行了优化,而且还能广泛地支持第三方的商务智能软件。
今年5月,EMC针对常用于数据密集型分布式应用的Hadoop开源软件推出了一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备(Data Computing Appliance)。该设备结合了Hadoop和EMC Greenplum数据库,在一个单一、无缝的解决方案中实现了对结构化和非结构化数据的协同处理。此外,EMC还推出了面向Hadoop的EMC Greenplum HD社区版和EMC Greenplum HD企業版软件。
陶波表示,在大数据时代,如何同时处理好结构化数据与非结构化数据对厂商和用户来说都是一个挑战。EMC正在对此进行进入研究。
目前,Greenplum有一半的工程师在中国。Greenplum产品的一些重要功能也是在中国研发的,比如Greenplum与Hadoop、VMware虚拟化平台以及云平台的结合都是在中国完成的。云计算将成为大数据处理的一个支撑平台。许多中小企业可以在云平台上进行深入的数据分析。