专家观点:“大数据”与“海量数据”的区别

来源 :网络与信息 | 被引量 : 0次 | 上传用户:pan303
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   多年前,业界就在讨论一个话题:如何应对海量数据?特别是一些需要存储大量用户数据的行业,金融、电信、保险等热门行业。用户几乎在一天的每个小时,都有可能产生大量数据,这些行业的存储设备,必须要将期间产生的数据一丝不苟地记录下来。随着数据量的迅速增加,很多行业用户开始想办法变“数”为宝,从海量数据中挖掘有价值的信息。
   如果仅仅是海量的结构性数据,那么解决的办法就比较单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题。然而,当人们发现数据库中的数据可以分为三种类型:结构性数据、非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了。
  
   大数据汹涌来袭
  
   当类型复杂的数据汹涌袭来时,对于用户IT系统的冲击又会是另外一种处理方式。很多业内专家和第三方调查机构通过一些市场调查数据发现,大数据时代即将到来。有调查发现,这些复杂数据中有85%的数据属于广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。
   如今大数据的概念也存在着很多的炒作和大量的不确定性。为此,编者向一些业内专家详细了解了有关方面的问题。
   有人将多TB数据集也称作“大数据”。据市场研究公司IDC统计,数据使用预计将增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。然而,单个数据集的文件尺寸也将增加,导致对更大处理能力的需求以便分析和理解这些数据集。
   EMC曾经表示,它的1000多个客户在其阵列中使用1PB(千兆兆)以上的数据,这个数字到2020年将增长到10万。一些客户在一两年内还将开始使用数千倍多的数据,1EB(1艾字节=10亿GB)或者更多的数据。
   对大企业而言,大数据的兴起部分是因为计算能力可用更低的成本获得,且各类系统如今已能够执行多任务处理。其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据。另外是把计算机聚合成服务器集群越来越简单。IDC认为,这三大因素的结合便催生了大数据。同时,IDC还表示,某项技术要想成为大数据技术,首先必须是成本可承受的,其次是必须满足IBM所描述的三个“V”判据中的两个:多样性(variety)、体量(volume)和速度(velocity)。
   多样性是指数据应包含结构化的和非结构化的数据。
   体量是指聚合在一起供分析的数据量必须是非常庞大的。
   而速度则是指数据处理的速度必须很快。
   “大数据”并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的第三个维度,也就是速度或者时间维度。
   Garter表示,全球信息量正在以59%以上的年增长率增长,而量是在管理数据、业务方面的显著挑战,IT领袖必须侧重在信息量、种类和速度上。
   量:企业系统内部的数据量的增加是由交易量、其他传统数据类型和新的数据类型引发的。过多的量是一个存储的问题,但过多的数据也是一个大量分析的问题。
   种类:IT领袖在将大量的交易信息转化为决策上一直存在困扰,现在有更多类型的信息需要分析,主要来自社交媒体和移动(情景感知)。种类包括表格数据(数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其他更多种类。
   速度:这涉及到数据流、结构化记录的创建,以及访问和交付的可用性。速度意味着正在被生成的数据有多快和数据必须被多快地处理以满足需求。
   虽然大数据是一个重大问题,Gartner分析师表示,真正的问题是让大数据更有意义,在大数据里面寻找模式帮助组织机构做出更好的商业决策。
  
   如何定义“大数据”
  
   尽管“Big Data”可以翻译成大数据或者海量数据,但大数据和海量数据是有区别的。
  
   定义一:大数据=海量数据+复杂类型的数据
  
   Informatica中国区首席产品顾问但彬认为:“大数据”包含了“海量数据”的含义,而且在内容上超越了海量数据,简而言之,“大数据”是“海量数据”+复杂类型的数据。
   但彬进一步指出:大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。
   大数据由三项主要技术趋势汇聚组成:
   海量交易数据:在从ERP应用程序到数据仓库应用程序的在线交易处理(OLTP)与分析系统中,传统的关系数据以及非结构化和半
  结构化信息仍在继续增长。随着企业将更多的数据和业务流程移向公共和私有云,这一局面变得更加复杂。   海量交互数据:这一新生力量由源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。   海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构,例如具有开放源码、在商品硬件群中运行的Apache Hadoop。对于企业来说,难题在于以具备成本效益的方式快速可靠地从Hadoop中存取数据。   定义二:大数据包括A、B、C三个要素   如何理解大数据?NetApp大中华区总经理陈文认为,大数据意味着通过更快获取信息来使做事情的方式变得与众不同,并因此实现突破。大数据被定义为大量数据(通常是非结构化的),它要求我们重新思考如何存储、管理和恢复数据。   那么,多大才算大呢?考虑这个问题的一种方式就是,它是如此之大,以至于我們今天所使用的任何工具都无法处理它,因此,如何消化数据并把它转化成有价值的洞见和信息,这其中的关键就是转变。   基于从客户那里了解的工作负载要求,NetApp所理解的大数据包括A、B、C三个要素:分析(Analytic)、带宽(Bandwidth)和内容(Content)。   1.大分析(Big Analytics)   帮助获得洞见,指的是对巨大数据集进行实时分析的要求,它能带来新的业务模式,更好的客户服务,并实现更好的结果。   2.高带宽(Big Bandwidth)   帮助走得更快,指的是处理极端高速的关键数据的要求。它支持快速有效地消化和处理大型数据集。   3.大内容(Big Content)   不丢失任何信息,指的是对于安全性要求极高的高可扩展的数据存储,并能够轻松实现恢复。它支持可管理的信息内容存储库,而不只是存放过久的数据,并且能够跨越不同的大陆板块。   大数据是一股突破性的经济和技术力量,它为IT支持引入了新的基础架构。大数据解决方案消除了传统的计算和存储的局限。借助于不断增长的私密和公开数据,一种划时代的新商业模式正在兴起,它有望为大数据客户带来新的实质性的收入增长点以及富于竞争力的优势。(中关村在线)
其他文献
无线打印设备的出现,给办公领域带来了一个很大的便利。无线打印设备不仅帮助办公用户解决了打印文件时耗时耗力的办公烦恼,还帮助摆脱繁琐网线布线的困扰,办公环境也越来越整洁。下面笔者就来给大家介绍几款支持无线打印的喷墨一体机,供大家在选购时参考。        佳能MX418喷墨传真一体机 参考价:979元     佳能MX418多功能喷墨一体机集打印、复印、扫描、传真于一身,并且支持WiFi无线功
期刊
摘 要:IT管理员们整天都忙于阻挡安全雷达上显示的各种大型攻击,而下面要列出的十个安全隐患,可能一直存在于企业中,却没有被IT管理员察觉。   关键词:终端安全;Web安全;VPN;安全隐患     1.常规代码错误     编程过程中出现错误的情况在现在的技术条件下依然会出现。大多数常见的编码错误会导致SQL注入以及跨站脚本漏洞。这种情况是经常出现的,就连一些大型软件厂商也不能避免(Wor
期刊
随着越来越多的公司将关键业务转向Linux的平台,确保IT人员具备必要的Linux技能变得比以往任何时候都更重要。   这是一个重大的挑战,因为对掌握Linux技能人才的需求已经远远超过供应,这使得在招聘市场,大公司和小公司要去争夺掌握Linux技能的人才。而IT就业网站Dice.com显示,Linux技能经验的需求增长率2011年比2010年增长了31%,相对于整体的IT技术只有20%的需求增
期刊
IT治理侧重于宏观决策方面的指导,告诉人们:要做哪些事,由谁来做这些事,以及如何建立决策机制、如何进行有效监控等明确的目标。IT治理为组织建立一个长效均衡的治理结构,在风险可控的环境下保证组织获益。均衡的环境在满足组织外部约束的同时需要考虑如何降低成本、提高股东收益、满足客户要求,以及建立良好的社会形象等条件。   IT治理必须在风险与利益之间找到均衡,通过IT审计不断促进调整IT控制环境,使组
期刊
在PC上愈演愈烈的开放平台正逐步进入到移动互联网行业,而随着3G网络的发展和智能手机的普及,越来越多的移动用户开始利用手机上网。所以,这一现象也铸就了手机浏览器领域百家争鸣的局面。做为国内各智能手机平台最受用户欢迎的浏览器软件,UC浏览器在UI设计以及上网速度上都有着自己的优势。       简单来说,UC浏览器是一款把“互联网装入口袋”的主流手机浏览器,支持WEB和WAP网站,速度快而稳定,具
期刊
深圳是一个年轻、现代化并且充满活力的城市。它从三十年前的一座小渔村,到现在的国际化现代大都市,并且成为中国五个经济特区之一。  此次全球信息技术主管大会在深圳为中外CIO搭建了交流互动的平台,并且会上还发布了首个“全球信息技术主管宣言”。此次大会让我们了解到了CIO角色的重要性,这对于推动政府及企业信息化有着里程碑意义。中国电子协会秘书长刘汝林、副秘书长林润华为我们详细介绍了本次大会的具体情况。 
期刊
摘 要:虽然集成并不一定是一个新的问题,但是在云集成中却面临着独特的挑戰,它需要采用一种新的方法。然而,仍然有很多企业还是用点对点(P2P)解决方案来解决云集成问题。   关键词:P2P;云计算     为了成功地解决云集成的问题,我们需要超越点对点集成,并且避免发生重复性的相同错误。在这里一共列举了点对点集成中所面临的十大陷阱的清单(没有特别的顺序),这样可以避免在云集成中出现重复:    
期刊
摘 要:尽管导致企业决定迁移到云中的具体原因也许会有很多条,类似可扩展性、灵活性和效率等方面都可能属于其中的考虑,但最重要的决定性因素依然是运行成本方面的节约。   关键词:云计算;云服务评估     更低的费用、更精确的成本匹配以及不会出现过度投资问题,这一切都让云变得更具吸引力。   此外,如果市场发展趋势良好的话,云服务供应商之间的竞争也会变得相当激烈,这会让价格方面的优势更加突出。 
期刊
摘 要:对于公司来说,云模式不应该被忽略;与此同时,针对云的特点进行有效管理也属于必须要做的工作。现在,公司开展工作的重点就变成了对管理需求进行全面分析,确保可以通过云服务模式得以实现。在进行战略规划时,这属于首先要考虑的关键问题。   关键词:云网络;云计算;云管理     对于新技术来说,经常会出现具有讽刺意味的典型场景之一就是,大家都认为管理属于可有可无的问题。人们希望在该技术投入使用并
期刊
摘 要:全面从IPv4协议迁移到IPv6协议下将需要耗费数年之久的时间,并且整個过程不会是一帆风顺的,而是会呈现出螺旋式发展的趋势。但是,很少有公司会像云计算供应商那样,真正认识到迁移过程的复杂程度。   关键词:IPv6;IPv4;DNS;云计算   自面世的那一天开始,互联网从来没有像现在这样面临着如此之多的潜在变化;这不仅给安全和稳定性带来了很大的影响,甚至连云计算都受到了波及。  
期刊