大数据,未来的“新石油”

来源 :中国报道 | 被引量 : 0次 | 上传用户:maxzhk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在电影《点球成金》中,用经验思考的教练和球探败给了用数据分析来做出判断的数学系高材生。虽然这部2012年最受欢迎的体育电影讲述的是一个虚构的故事,但它却将数据分析这种看似陌生的工具与普通人所熟悉的事物——棒球比赛完美地融合在一起。数据挖掘与分析在社会中扮演的角色越来越重要,随着数据存储和分析的成本越降越低,大数据将在人类社会大展拳脚。
  中国工程院院士邬贺铨在1月11日举行的“2013中国智慧城市年会”上说,“大数据指无法在允许的时间里用常规的软件工具对内容进行抓取、管理和处理的非结构性数据集合。”但对于大多数不了解IT技术的人而言,这个定义实在太深奥了。
  到底什么是大数据?它对我们的日常生活产生了什么影响?
  大数据帮你省机票钱
  逢年过节,买票总是一件让人头疼的事情。火车票难买,飞机票的供应虽然相对没那么紧张,但如果刚付完钱机票价格就下跌,你肯定多多少少会郁闷一会儿。
  什么时候买机票比较便宜?“当然是越早订票越便宜。”来自安徽的李梓豪毫不犹豫地对记者说,“我去年12月就订好了今年5月飞巴厘岛的机票,双人往返才3000多块钱!”对于能淘到便宜机票这件事,李梓豪丝毫不掩饰自己的喜悦。
  不过,中国南方航空公司某位熟悉机票价格制定机制的工作人员告诉记者:“越早订票越便宜”并不是百试不爽的箴言,“在国内市场有时会出现一些不理智的‘價格战’,所以相对于国际航班而言,国内航班发生越临近起飞票价越便宜的概率更大。另外,虽然我们也会根据往年的销售情况预先出售淡季的特价票,但是航空公司给出的折扣可能并没有达到消费者的预期,因此仍然有可能出现机票价格下跌的情况。”
  正是由于机票可能越卖越便宜,才出现了能够帮助人们预测未来机票价格走势的Farecast公司。
  2003年的一天,华盛顿大学的计算机专家奥伦·埃齐奥尼准备乘坐飞机从西雅图前往洛杉矶。他跟李梓豪一样,出发前好几个月就预订了机票。他一直对自己这种“明智”的决定感到十分得意。可是,当得知旁座的乘客比他晚订票,但所购机票价格却比他便宜得多时,他感到非常气愤。
  下了飞机之后,奥伦·埃齐奥尼仍然对这件事“耿耿于怀”。于是,他建立了一个帮助乘客预测机票价格走势的系统。这个系统能够从机票预订数据库中抓取数据,并根据每一条航线上每一架飞机的每一个座位一年内的综合票价记录,对未来机票的行情进行分析预测。如果一张机票的平均价格呈下降趋势,系统就会提示用户不要急着购票。这便是Farecast公司的前身。
  “到2012年为止,Farecast系统使用了近十万亿条价格记录来帮助预测美国国内航班的票价。”牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈尔-舍恩伯格在《大数据时代》中写下了这个惊人的数字,“平均每张机票可为旅客节省50美元。”如今,Farecast已被微软收购,并被整合至必应搜索引擎。如果你要购买美国、加拿大、欧洲和加勒比地区的机票,它很可能让你省下一笔费用。
  Farecast所使用的这十万亿条价格记录,就是大数据的一种。不过,大数据不仅仅限于这种数字记录。汤森路透旗下全球战略市场集团总裁任善可说:“我们通过专业记者团队和固定的信息收集途径获得文字、图片、报告等形式的数据,将它们转换为相关的观点提供给大客户,以显示金融波动和商业机会。”任善可所说的这些文字、图片以及人们在日常生活中所接触的音频、微博消息、手机导航信息、社交网站讨论甚至街头的交通监控视频等非数字形式的信息,都属于大数据的范畴。
  目前,大数据的标准是:单一数据集的大小在几十个TB(万亿字节)和几个PB(千万亿字节)之间。这究竟有多大?一部一小时左右的标准清晰度电影的大小约为 1GB,1TB=1024GB,1PB=1024TB。淘宝网每天单日数据产生量超过50TB,存储量超过40PB;中国联通用户上网记录每月一万亿条,对应数据量约300TB。
  流感可以被预测
  这些庞大的数据除了可以帮人们省点机票钱,还有很多没被老百姓注意到的用处。
  去年12月31日以来,北京市有两人因感染甲型H1N1流感死亡。这让人们不禁回想起2009年的甲流大流行。对当时的人们来说,甲型流感病毒是一种全新的病毒。因此,在科学家研制出对抗这种新型病毒的疫苗之前,疾控部门只能用隔离等物理手段减缓它的传播速度,但前提是搞清楚传染源的位置。
  可是疾控部门接收各地传回的数据需要一定的时间,当疾控部门获得数据时,已经落后于疾病的传播脚步了。而谷歌公司通过收集并分析人们在谷歌搜索引擎上的搜索记录,及时并准确地判断出了传染源所在地。
  谷歌基于每天来自全球的30多亿条搜索指令设立了一个系统,这个系统在2009年甲流爆发之前就开始对美国各地区进行“流感预报”,并推出了“谷歌流感趋势”服务。谷歌在这项服务的产品介绍中写道:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。虽然并非每个搜索“流感”的人都患有流感,但谷歌发现了一些检索词条的组合并用特定的数学模型对其进行分析后发现,这些分析结果与传统流感监测系统监测结果的相关性高达97%。“这也就表示,谷歌公司能做出与疾控部门同样准确的传染源位置判断,并且在时间上提前了一到两周。” 维克托·迈尔·舍恩伯格如此说道。
  正如“流感趋势”产品首席工程师杰里米·金斯堡所说的那样,“这是一种有趣的、独特的追踪疾病暴发情况的途径。”谷歌在2009年甲流暴发期间,为公共卫生机构提供了更及时且同样有效的疫情数据。美中不足的是,目前谷歌不提供中国的流感趋势预测服务,国内的搜索引擎公司也没有提供类似的服务。
  大数据的影响不仅仅限于航空和卫生领域。例如,在电子商务领域,对消费者购物习惯数据的分析可以让电子商务公司做到精确推荐关联产品、管理库存和快递运输服务。虽然对用户的数据挖掘也同时会带来隐私保护等方面的问题,但大数据给人类社会带来的好处是显而易见的。正如中国科学院院长白春礼在中国科学院大学“中国科学与人文论坛”上所说的,信息网络领域有可能是新一次科技革命的突破口,而大数据就是“未来的新石油”。
其他文献
对32P水溶液切连科夫辐射测定中体积因素对测定结果的影响进行了初步研究。结果显示符合测量中体积与计数效率呈正相关关系,非符合测量中体积与计数效率呈负相关关系。提示在
用放射免疫分析方法(RIA)分析了鼠肝,肾匀浆中乳糖化人生长激素(hGH-L)和人生长激素(hGH)的含量,探讨hGH-1的体内动力行为,并对该分析测定方法进行了方法学评价,结果表明,hGH-L具有良好的体内动力学特征,其肝摄
分别用钠硼氘、钠硼氚还原人参皂甙Rh1的活性形式20(S)-protopanaxadiol(aPPD)的氧化前体aPPD=O,制备^2H、^3H标记的aPPD。标记物经薄层层析(TLC)、质谱(MS)、核磁共振(^1H NMR)分析鉴定
目的探讨球囊辅助弹簧圈联合Onxy胶治疗颈内动脉海绵窦瘘(CCF)的安全性及有效性。方法四川省医学科学院·四川省人民医院神经外科自2018年1月至2020年6月共收治CCF患者19
采用单层析与双层析法分别对新型心肌显像剂^99Tc^mN(NOEt)2的放化纯度进行了分析。结果表明,双层析法对^99Tc^mN(NOEt)2及杂质的分离较为迅速、准确,可作为^99Tc^mN(NOEt)2放化纯度分析的较佳方法。
目的总结血泡样动脉瘤(BBA)的临床特点及探讨其治疗策略,比较开颅手术治疗与血管内治疗的有效性和安全性。方法回顾性分析四川省医学科学院·四川省人民医院神经外科自20
全国首家体验史前文明的特大型主题公园——山东省泰安太阳部落旅游区4月3日正式营业,一座将史前文化和现代游乐巧妙融合为一体的文化景区拉开了精彩之旅的序幕。
摘要:本文从广告主题、画面、音频、文案、媒介等角度,分析家庭传播与洗涤用品广告间的相互关系,并以此为基础,对洗涤用品广告进行反思,提出了四条建议即尽量传播家庭正能量、注意规避负面效应、坚持以人为本、提升新意与引导力。  关键词:洗涤用品广告家庭传播  家庭、传播、广告,这三个概念之间存在着密切的联系。广告的运作与家庭的构建、变迁都离不开传播,而广告又通过传播,影响着一个一个家庭或其中的成员,家庭成
加强和改进基层党组织建设,统筹兼顾做好基层党建和业务工作,是贯彻落实习近平新时代中国特色社会主义思想、发挥高校党的领导最大优势的紧迫要求,是一项基本建设、基础工程
某些氧化还原反应不能在PH为0-14时发生,电位-PH图能解决这些困难,并可利用它阐述和选择最佳生产工艺条件。