论文部分内容阅读
大数据是眼下很多企业面临的一个挑战,由于数据量非常巨大,而且数据类型异常复杂,传统的基于关系型数据库的存储和分析办法显露出不足。Hadoop的出现给人们带来解决大数据问题的希望,特别是一批著名的大企业,如谷歌、雅虎、JP摩根大通等,成功地利用Hadoop开发出了开源的大数据管理系统,让人们看到了Hadoop在解决大数据难题时的巨大潜力,很多企业纷纷决定引入Hadoop,来解决自己的大数据难题。
不过,专家提醒,在决定利用Hadoop构建自己的大数据管理系统之前,一定要确保自己充分了解Hadoop。采用Hadoop之前最好先对技术人员进行必要的培训,以确保技术人员具备必要的数据分析专业知识。显然,并不是所有的企业都能成功地开发和部署Hadoop应用的。目前,Hadoop还是一个刚刚起步的市场,有很多厂商提供与Hadoop有关的产品和服务,其中有些是基于云的SaaS服务。
最重要的是,一定不要盲目跟风,每个企业都有自己的特殊需求,都有自己的技术条件。根据Forrester的市场调查,目前,在美国只有1%的Hadoop项目是真正应用于生产环境中的。“这个数据肯定将在未来一年翻一番或两番。” Forrester分析师吉姆·库贝勒斯(James Kobielus)表示。他呼吁企业要保持谨慎,因为相关的技术还在演进之中,技术更新非常快。
可以肯定的是,与传统的数据库管理系统相比,Hadoop有自己的优势,尤其是它既能处理关系数据库中的结构化数据,同时也能处理诸如音视频等非结构化数据,而后者在现实世界中普遍存在,要远远比结构化数据更为常见。Hadoop系统还可以根据数据的规模和问题的复杂程度轻松地扩展。
“Hadoop的应用真正改变了我们对数据的理解和使用方式。” eBay用户体验、搜索和平台副总裁休·威廉姆斯(Hugh Williams)表示。eBay如今拥有的数据量高达9个PB,这些数据既有Terabyte系统所产生的结构化数据,同时也有Hadoop系统产生的非结构化数据。
“你可以在同样的硬件资源上运行各种不同类型的工作负载。相比而言,在Hadoop之前我们使用硬件资源的方式太呆板、太不灵活了。”威廉姆斯说,“如今,你能以一种与过去完全不同的方式来充分发挥集群的计算能力。这将大大降低公司创新的门槛,从而有助于组织的创新。Hadoop功能太强了。”
随需求增长自由扩展
位于美国佐治亚州德卢斯市的Concurrent公司是较早采用Hadoop的公司之一。这个公司对外销售流媒体系统。同时,它还替客户保存和分析大量的视频数据。为了更好地应对待处理数据量的不断增长,两年前Concurrent采用了Cloudera公司的Hadoop CDH系统。
“Hadoop是我们解决大数据难题必不可少的工具,借助它我们在很短的时间内就能完成海量数据的处理。”Concurrent公司工程总监威廉·拉扎罗(William Lazzaro)说。
拉扎罗介绍,Concurrent有一个部门专门收集和保存客户的视频点播统计数据,Hadoop的部署给这个部门解决了一个很大的难题。“我们有一个客户,现在一个月就可以新生成30亿条记录,我们预计,在未来3个月,它每月的数据量将会达到10亿条。”
很长时间以来,Concurrent公司有两个大的难题:一个是传统的关系型数据库无法处理诸如视频这类非结构化数据,另一个是需要进行处理和存储的数据量成倍增长。“我们的客户希望要保留4
不过,专家提醒,在决定利用Hadoop构建自己的大数据管理系统之前,一定要确保自己充分了解Hadoop。采用Hadoop之前最好先对技术人员进行必要的培训,以确保技术人员具备必要的数据分析专业知识。显然,并不是所有的企业都能成功地开发和部署Hadoop应用的。目前,Hadoop还是一个刚刚起步的市场,有很多厂商提供与Hadoop有关的产品和服务,其中有些是基于云的SaaS服务。
最重要的是,一定不要盲目跟风,每个企业都有自己的特殊需求,都有自己的技术条件。根据Forrester的市场调查,目前,在美国只有1%的Hadoop项目是真正应用于生产环境中的。“这个数据肯定将在未来一年翻一番或两番。” Forrester分析师吉姆·库贝勒斯(James Kobielus)表示。他呼吁企业要保持谨慎,因为相关的技术还在演进之中,技术更新非常快。
可以肯定的是,与传统的数据库管理系统相比,Hadoop有自己的优势,尤其是它既能处理关系数据库中的结构化数据,同时也能处理诸如音视频等非结构化数据,而后者在现实世界中普遍存在,要远远比结构化数据更为常见。Hadoop系统还可以根据数据的规模和问题的复杂程度轻松地扩展。
“Hadoop的应用真正改变了我们对数据的理解和使用方式。” eBay用户体验、搜索和平台副总裁休·威廉姆斯(Hugh Williams)表示。eBay如今拥有的数据量高达9个PB,这些数据既有Terabyte系统所产生的结构化数据,同时也有Hadoop系统产生的非结构化数据。
“你可以在同样的硬件资源上运行各种不同类型的工作负载。相比而言,在Hadoop之前我们使用硬件资源的方式太呆板、太不灵活了。”威廉姆斯说,“如今,你能以一种与过去完全不同的方式来充分发挥集群的计算能力。这将大大降低公司创新的门槛,从而有助于组织的创新。Hadoop功能太强了。”
随需求增长自由扩展
位于美国佐治亚州德卢斯市的Concurrent公司是较早采用Hadoop的公司之一。这个公司对外销售流媒体系统。同时,它还替客户保存和分析大量的视频数据。为了更好地应对待处理数据量的不断增长,两年前Concurrent采用了Cloudera公司的Hadoop CDH系统。
“Hadoop是我们解决大数据难题必不可少的工具,借助它我们在很短的时间内就能完成海量数据的处理。”Concurrent公司工程总监威廉·拉扎罗(William Lazzaro)说。
拉扎罗介绍,Concurrent有一个部门专门收集和保存客户的视频点播统计数据,Hadoop的部署给这个部门解决了一个很大的难题。“我们有一个客户,现在一个月就可以新生成30亿条记录,我们预计,在未来3个月,它每月的数据量将会达到10亿条。”
很长时间以来,Concurrent公司有两个大的难题:一个是传统的关系型数据库无法处理诸如视频这类非结构化数据,另一个是需要进行处理和存储的数据量成倍增长。“我们的客户希望要保留4