如何成为掌控大数据的“猎人海力布”

来源 :看世界 | 被引量 : 0次 | 上传用户:tinavalwell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  笔者小时候读过一篇童话《猎人海力布》,故事说,海力布从龙王那里获得了可以听懂飞禽走兽语言的宝石后,打的猎物就更多了。“人有人言,兽有兽语”,在信息大爆炸的今天,如何从海量的信息中获得有价值的东西、摸索出规律来呢?关键在于大数据。
  大数据并非现代文明的产物。《吕氏春秋》记载,东郭牙发现齐桓公口型“呿而不唫”,成功判断出齐桓公“所言者‘莒’也”,由此将齐桓公和管仲谋划讨伐莒国的事泄露了出去。如果缺乏足以观察到规律的大数据,东郭牙从何发现齐桓公的军事机密呢?!
  马陵之战中,孙膑抓住对手庞涓善于进行数据分析的特点,有意“使齐军入魏地为十万灶,明日为五万灶,又明日为三万灶”,反其道而用之,终对庞涓成功实施诱杀。
  1948年辽沈战役打响后,林彪正是凭借对在胡家窝棚缴获的短枪与长枪的比例、缴获和击毁的小车与大车的比例、俘虏和击毙的军官与士兵的比例比其他战斗略高的大数据分析,才确定了廖耀湘的兵团指挥所。

需要克服“大数据病”


  数据是客观的,但人是主观的生物。面对大数据,很多人甚至专业的分析师也会犯主观错误,甚至被数据迷惑,被数据牵着鼻子走。
  富兰克林·罗斯福是美国历史上唯一连任四届的总统。1936年罗斯福想竞选第二任总统时,许多人预测罗斯福很难如愿。大名鼎鼎的《文学文摘》杂志,此前几次对总统选举结果的预测都成功了,如今它又如法炮制,搞了个240万人的调查统计,具体方式就是在杂志里夹上关于总统选举的调查问卷,然后收集反馈。正是根据这个结果,《文学文摘》宣布兰登将赢得大选。
  当时有个年轻人叫盖洛普,其预测结果刚好跟《文学文摘》相反。但他财不大气不粗,只访问调查了5000人。基于对这5000人的调查,盖洛普预测罗斯福连任,结果应验。盖洛普也由此名声大噪,并成立了一家民意调查公司—盖洛普咨询公司。
  为什么会这样?其实很简单,《文学文摘》调查的240万个用户,家境一般都较好。也就是说,它调查的主要群体,其实相当单一。但盖洛普就完全不同了,他尽可能使抽样调查符合当时的选民结构。
  中国人民大学统计与大数据研究院副院长朱利平认为,数据分析离不开两个基本概念:相关与因果。人们常常混淆这两个概念,常会把相关关系误以为是因果关系。这就是“大数据病”的根源。
  比如,我们看到每年冰淇淋销量增加的同时,各地不幸溺亡的人数也在增加。二者能否构成因果关系呢?常识告诉我们,肯定不能。二者只是相关关系(都与气温升高有关)。
  约500年前,丹麦天文学家第谷连续20年观察多颗行星的运动轨迹,在记录、分析了海量数据后,依然未能取得成果。后来,一个叫开普勒的人决定另辟蹊径:既然地球每隔365天会回到同一位置,如果把地球位置固定,再分析其他行星与地球的相对位置,是否就能成功得出其他行星的运行轨迹呢?
  果不其然,他发现如果地球位置不变,那么其他行星的20年运行轨迹画出后,显示它们都是围着太阳转的,并且运行轨迹都是椭圆形。开普勒就此发现了行星运动规律。
  由此可见,数据量大不一定就代表价值高,只有收集来的数据质量好、有代表性,才有可能取得研究成果。

扑面而来的“数字压力”


  大数据正在完善我们的视听世界。不久前,古装言情剧《东宫》第十集中,女主和男主相继跳下忘川,形成首个剧情高峰。分析师对观众尤其是年轻观众的反馈进行大数据分析后,认为“跳忘川”的戏份没配BGM(背景音乐)太可惜,于是立马联系片方,加上了网友们最爱的插曲作为背景乐。就为这段音乐,不少观众甚至重刷了这一集。
  据《人民日报》报道,到2018年年底,我国数字经济规模达到31万亿元,占GDP的1/3。全球IT研究与咨询公司权威机构Gartner预计,2020年中国产生的数据量将是2013年的20倍。
  万物有利有弊,大数据亦不例外。
2019年5月27日,2019年中國国际大数据产业博览会贵州省贵阳市开幕

  2018年,个人信息泄露事件接连发生:单单6月,视频网站AcFun对外宣称900万条用户数据外泄,招聘网站“前程无忧”的195万条用户求职简历泄露,圆通快递10亿条快递数据被售卖。而在7-9月,又传出顺丰快递3亿用户数据被兜售,华住旗下酒店5亿条客户开房数据被出售,万豪集团5亿名客人的信息被泄露……
  最近被曝光的一份高达41GB的暗网中心交易数据文件,更是包含了14亿用户的用户名及密码,可能是迄今为止最大规模的数据泄漏事件。
  这些个人信息成了明码标价、公开兜售的商品,也意味着每一个个体将因此成为广告、营销人员乃至不法分子的目标与猎物。
  今年“3·15”的热门话题之一,是“疯狂的营销电话”。北京市消协发布的调查结果显示,56.92%的被调查者表示,有过被大数据“杀熟”的经历。有人说,全世界的企业可分为两种:一种是数据已泄露的企业,一种是将要发生数据泄露的企业。
  童话里的海力布,掌握并成功分析了动物们的“大数据”,但他一泄密,就变成了坚硬的石头。在5月末“2019中国国际大数据产业博览会”现场,我充分感受到了扑面而来的“数字压力”。
  论坛内外探讨的“数字压力”,是如何突破大数据时代各种技术瓶颈的压力,是担心在新一代信息技术蓬勃发展中“掉队”的压力,是急切地想抢抓数字化、网络化、智能化发展机遇的压力,更是直面大数据时代法律、安全、政府治理等各方面挑战的压力。

  56.92%的被调查者表示,有过被大数据“杀熟”的经历。

  我们既要充分利用大数据的“矛”,也要制好防范大数据泄密的“盾”。2015年图灵奖获得者惠特菲尔德·迪菲认为,目前世界公认的解决大数据安全问题的最好办法是密码学,即对数据进行一定程度的加密,即使偷听者拦截到信息,如果没有密钥也无法破解,无法了解信息的具体内容。
  他认为,数据量越大,安全保障的重要性就越大。比如大数据赋能的道路网络管理和自动驾驶,可以显著提高生活质量,但如果安全问题没解决好,或遭遇恶意攻击,那将十分危险。
  其实,大数据本身是可以帮助我们做好信息安全工作的。如在大数据场景中,我们可以根据用户的访问行为,判断他是否为异常用户,可及时跟踪、判断其意图,从而提前预警,防患于未然。
  英国数学家托马斯·克伦普在《数字人类学》一书中指出,数据的本质是人,分析数据就是在分析人类族群自身。对公共部门和企业来说,在确保数据安全的前提下,将数据转化为服务和产品,才能更加准确地对接人们的需求和期待,从而让数据更好地服务人类社会。
  在印度教中,宇宙由梵天睁眼之看产生;在佛教和耆那教中,这“看”应是来自佛陀和大雄的智慧之眼。人的六根所感是划了一个范围的,宇宙的呈现也因人之感而有一个范围。一人对宇宙不断地感,就形成了此人的世界;更多人不断地感,就形成了大数据,形成了世界。
  依据《人类简史》的逻辑,大数据也可被认为是人类创造的“虚拟共同体”的一部分。当我们依托大数据、对芸芸众生有一个更为精准的表达时,我们也就成为了现代版的“猎人海力布”。
其他文献
在“万花筒”曼哈顿,如果提前做好攻略,悠哉地逛上一周也不难。  但如果在纽约的时间不多,或者跟团旅行只有2小时自由活动时间的话,去哪里逛,才最能品尝到纽约的滋味呢?  今年4月中旬我重访纽约,去了很多以前没来得及去,或是近几年才出现的博物馆和观光景点。其中一些规模不大且交通极为方便的地方,对于临时有时间可打发的人来说,或许恰好合适。弗里克藏品馆较高的颜值和极强的话题性,为高线公园赢得了不少赞誉,在
2015年5月2日,梅威瑟(左)和帕奎奥的“世纪之战”,短短36分钟的比赛,带来了超过6亿美元的直接收入  事物的进化往往不是循序渐进,而是在某一条水平线反复起伏后,突然拉至新的高峰。  2015年5月2日的“世纪之战”就是经典例子。短短12回合、36分钟的比赛,带来了超过6亿美元的直接收入—此前的纪录不过2亿美元出头。职业拳击的奢华踏上新台阶。  赛事核心数据几乎都与金钱有关:令人咋舌的付费电视
英《新政治家》5月1日  “峰值石油”的概念已经消亡了吗?也许吧,但不会太久。现在正在发生的事情,25年前就已经发生了。我们正处在僵尸石油市场,即大约在1995年石油时代的重返中,上一次需求仅为每天7000万桶。在大流行引起的崩溃之前,我们目睹了能源从常规石油向非常规化石燃料(如沥青和“页岩油”)的过渡。当石油期货价格跌至前所未有的负价水平时,非常规石油企业受“黑色四月”打击最严重。然而,除非新冠
钱克锦  4月初,美国“西奥多·罗斯福”号航母的舰长克罗泽,因舰上疫情发信求援,导致海军部门不满并因此丢官,引发一系列争论和人事变动。  美国海军部一些官员认为,写信求援并涉嫌将信透露给媒体,有损海军形象,有伤士气。不过,该航母上绝大部分官兵及其家属,都支持克罗泽公开求援。究其原因,大概是航母或其他远洋军舰一旦感染新冠病毒,就成为令人沮丧的“孤独疫区”。  城市沦为疫区,不管多混乱多糟糕,起码健康
18世纪起,伦敦酒店的饭桌上可见写有“to insure prompt service”字样的碗,顾客将零钱放入碗中,就会得到招待人员迅速而周到的服务  “自愿打赏”这个词,在当今中国的互联网生活中并不陌生,特别是在直播、新媒体、导游等服务行业。受众们如果觉得收获了满意的体验,扫一扫二维码,就可以对为其提供了优质“服务”的人员进行打赏了。“赏金”则直接进入服务人员的个人账户。  这种享受服务并表达
印度恒河河岸  早在約5000年前就有了璀璨的印度河文明,可它只延续了约1300年,令古印度文明出现了七八百年的断层。而在这个断层的早期,世界上最早的游牧民族之一、发源于中亚草原地区的白种人—雅利安人乘虚而入,与北印度土著不断融合。于是,从约公元前1000年开始,有了恒河文明。  无论是后期吠陀文献、两大梵文史诗,还是受古希腊文明影响的犍陀罗佛像,抑或是印度两大早期帝国(比秦帝国版图更大的孔雀帝国
1895年,挪威人弗里乔夫·南森设法建造了人类历史上第一艘大型海上破冰船“弗拉姆”号  位于地球最北部的北极圈,直到19世纪后期,仍然被神秘笼罩。多少个世纪以来,来自美洲、欧洲和亚洲北部的捕鲸者都有着深入北极圈的梦想。人们一直认为,有一条所谓的“西北航线”,从大西洋跨越北冰洋,连通太平洋,能够将美、欧、亚三洲之间的海运大大缩短,是一条最快速的海上航路。  但这一说法只是个“神话”。它基于19世纪中
2020年美国的民主党党内预选,角逐非常激烈。伯尼·桑德斯在“预选前三州”艾奥瓦、新罕布什尔和内华达州的领先地位,未能让他如愿锁定总统候选人提名。3月3日的“超级星期二”14州预选中,拜登在民主党高层鼎力相助下一举赢得得州、北卡、弗吉尼亚、马萨诸塞等10州,形成了对决桑德斯的态势。  美国党内预选制度是如何形成的?“预选前两州”的地位今不如昔?为何会有十多个州同时举行预选的“超级星期二”?什么是党
第二届中国国际进口博览会上的巴西参展方  拉美大国中,以巴西和墨西哥最为重要。墨西哥如今是左翼总统当政,巴西则是右翼总统当政,但巴西属于金砖国家一员,是拉美国家中最早与中国建立全面战略伙伴关系的。如今看来,巴西和墨西哥,谁更“站”中国?墨西哥对美“硬不起来”  2018年12月1日就任墨西哥总统的洛佩斯·奥夫拉多尔,俨然拉美左派新霸主。以委内瑞拉“双总统”危机为例,2019年1月4日,美洲“利马集
《西部世界 第三季》(Westworld Season 3)  首播:2020.3.15(美国)  集数:8  单集片长:72分钟  豆瓣评分:9.3  苦等两年后,HBO的重头科幻大剧《西部世界》第三季回归了。它延续了第二季的剧情,讲述机器人叛乱并逃出西部世界主题乐园,来到真实世界的故事,刚刚播出一集,就在豆瓣拿下了9.3分。  第一集名为《Parce Domine》,是迄今为止所有场景都在乐园