统计学:合格公民必备素养?

来源 :看世界 | 被引量 : 0次 | 上传用户:fremar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读

  2016年6月,英国就是否“脱离欧盟”举行全民公投,“脱欧派”以52%对48%胜出。其后,英国一直在“脱欧”事务上问题不断,尽管英国首相约翰逊表示10月31日“脱欧”的时间不会被推延。
  “脱欧”公投时期,一辆红色大巴成为当时“脱欧”运动的标志性形象,车身上刷有醒目的游说标语:“我们每周向欧盟支付3.5亿英镑,让我们把这些钱用在国民医疗服务体系上吧!”它将抓人眼球的大额费用支出,与具有公益性的英国国民医疗服务体系(National Health Service)并置,对数字的巧妙使用,最终让公投的天平倒向了“脱欧派”一方。

  为了获得额外的一例肠癌,这100人必须在一生中每年吃大约180份油腻的培根三明治。

  那么,巴士车身上的数据可靠吗?就像政治话语通常使用的数据一样,3.5亿英镑不是完全捏造的,它确有依据。根据公开的财务报表,2017年欧盟商定的英国年度缴费金额为186亿英镑(即每周3.57亿英镑)。但是,扣除56亿英镑退税之后,这个数字缩减至130亿英镑。此外,其中大约40亿英镑还将从欧盟返还,用于诸如科学、农业等公共领域,英国即便离开欧盟,也要自己支付这部分费用。
  当时,有不少人批评“脱欧派”鼓吹英国每周向欧盟支付3.5亿英镑。2017年,在还是外交大臣的约翰逊提到这个数据时,英国统计局主席谴责了他,认为这是“典型的对官方统计数据的滥用”,甚至还对约翰逊提起私人刑事诉讼,罪名是“公职中的不当行为”,只是后来高等法院终止了这一起诉。

巴士标语


  当时,红色巴士上的标语在数百万人心中激起了强烈的情感共鸣,但它本身是条错误的信息。这一事件揭示了统计数据潜藏的威力和弱点:它可以用来强化观点,但也往往经不起检视。在这个统计数据日益发挥重要作用的时代,统计学素养将成为一项基本的公民技能。我们需要具备能力去识破那些滥用数据的现象,并通过数据来揭穿错误的观点。
  统计数据并不是一成不变的事实,就像内特·西尔弗(Nate Silver)在《信号与噪音》中所表述的那样:“数字本身无法表达观点,是我们在为它说话,是我们在向它注入有意义的东西。”人们使用自身的判断力来选择问题、确定概念、分析数据,甚至选择不同的数据表述方式,都会彻底改变数据所呈现的情感色彩。
  回到英国“脱欧”运动中的那辆红色巴士。假设英国确实每周向欧盟支付了3.5亿英镑,如果以“留欧派”的立场,我们可以在巴士上写些什么呢?让一个大数据显得小些,有两种典型方法,一种是将它换算成在一个更大数字中的比例。例如,英国目前的GDP约为2.3万亿英镑,因此英国向欧盟缴纳的费用在GDP中的占比还不到1%。
  另一种方法,是将数据分解成更小、更容易被感知的单位。例如,英国有6600万人,每周3.5亿英镑的总花费仅为每人每天75便士,还不到1美元,相当于一小包薯片的成本。如果在红色巴士上写“我们每人每天给欧盟送一包薯片”,“脱欧派”也许就没那么顺利了。

培根致命?


  数据常常被用于说服,而不是提供信息。因此,人们需要提高自身的统计素养。学校虽然开设统计学课程,但是由于过分强调其中的数学基础,往往忽略培养学生通过统计学来解决实际问题、表达观点的能力。
  新西兰教育者就此革命性地提出了“PPDAC模式”:问题(Problem)、计划(Plan)、数据(Data)、分析(Analysis)、结论(Conclusion),以解决问题为核心,来学习统计學原理、使用统计学工具。
车身上刷有醒目游说标语的巴士

  可以通过这样一个例子来运用“PPDAC模式”。2019年,CNN发布了一则头条新闻:“研究表明,每天吃一片培根,就会增加患结肠癌或直肠癌风险。”随后,英国《太阳报》夸张地表述为:“每天一片培根将会致命。”我们提出的问题是:我们应该关注这个风险吗?需要放弃培根吗?文章中提到的一项研究结论是:每天食用25克加工肉类(相当于隔天吃一大块培根三明治)与增加19%的罹患肠癌风险相关。
  一位受过统计学基础训练的人,会立即想到两个问题。首先,这种相关性是因果关系吗?换言之,人们如果开始吃培根,患病风险就会上升,还是两者之间仅仅只是有关联而已?国际癌症研究机构,目前已经证实了食用加工肉类将增加肠癌患病风险,所以,我们可以接受这个因果关系。
  第二个问题是,这个影响是否足够显著,以至需要引起注意。“增长19%”是一个相对风险,这种表述关联的方式会夸大风险本身。其中的关键问题是:19%的基数是什么?如果不知道基数—绝对风险,就无法判断19%的增长风险是否值得担忧。

  统计数据本身会给出一些答案,但它们通常会提出更多的问题。

  因此,还需要一个数据:绝对风险。研究结果表明,大约6%的人会患上肠癌,无论他们做什么,即便不吃培根。在100个不吃培根的人中,预计其中6人在有生之年会患上肠癌。与此同时,在每天吃25克培根(比如隔天吃一大块培根三明治)的100人中,预计会比原先6人增加19%,即约7人会患上肠癌。
连环杀手哈罗德·希普曼
  因此,为了获得额外的一例肠癌,这100人必须在一生中每年吃大约180份油腻的培根三明治,一生共消耗1万份,100人共100万份。所以,经过这样的表述,这则骇人听闻的头条新闻就显得无足轻重了。不幸的是,很少有媒体人具备上述的分析能力。

连环杀手


  哈罗德·希普曼(Harold Shipman)是英国杀人最多的凶手,尽管他不符合典型的连环杀手形象。在1975年至1998年间,他作为曼彻斯特郊区的一位温文尔雅的家庭医生(全科医生),向他的215位老年病人注射了过量的镇痛剂,并直接导致他们死亡。
  后来,他企图继承一位受害者的部分遗产而伪造了一份遗嘱,受害者女儿恰好是一位律师,这引起了她的怀疑。通过调查希普曼的电脑,律师发现他不断地修改病人病历,使他们显得比实际情况更加严重。随后,法医在15位未被火化的受害者体内,发现了致命剂量的二乙酰吗啡(医用海洛因)。
  希普曼因15起谋杀案被判终身监禁。其间当局开展了公开调查,以确定除了已被判处的罪行之外,希普曼是否还有其他违法行为,以及他是否可以被提前抓获。
  统计学家也加入了这项调查。他们首先统计分析了受害者的信息与希普曼的活动情况。
  希普曼的受害者以女性居多,且大多为70~90岁的老人;但随着时间的推移,一些年轻的受害者开始出现;在1992年前后,没有出现谋杀行为。事实也表明,希普曼原与其他医生联合执业,后因受到怀疑而独自工作,此后,他的谋杀行为变得更加频繁。
  将希普曼病人的死亡时间与其他家庭医生的病人相比较,可以发现希普曼的病人大多在下午早些时候死亡。而进一步的调查也证明,希普曼一般在午餐后进行家访,这个时间段他通常会与老年病人单独在一起。他给他们注射过量的吗啡,让老人们在他面前平静地死去。
  希普曼这样做也需要冒一定风险,因为一次尸检就能暴露他的罪行。但是,考虑到病人的高龄和明显的自然死亡特征,没有人会怀疑这位家庭医生。因此,统计学家还需要回答一个问题:他能被提早发现吗?
  如果比较希普曼与其他全科医生的累积病人死亡人数,希普曼的数据要明显高于后者,两者之差即为希普曼的累积超额死亡人数。到1998年,65岁及以上的病人中,希普曼的累积超额死亡人数为174名女性、49名男性。这几乎就是后来调查确认的老年受害者的实际人数,可见统计分析的准确性。

“零假设检验”


  如果有人每年监控希普曼的死亡病人数,能否在某个节点发出死亡人数异常警报,从而对希普曼展开调查,以挽回尚未逝去的生命呢?这个问题,其实涉及推论统计中的“统计显著性假设”。
  可以先建立“零假设”,即希普曼和他的同事拥有相同的病人死亡数,在这种情况下,希普曼是完全正常的。然后,我们计算能推翻零假设的统计值,并且算出零假设为真的情况下,该统计值随机出现的可能性,即P值。最后将P值与预设的临界值进行比较—临界值一般设为0.05或0.01,P值越小,则统计显著性水平越高,说明希普曼的病人死亡人数越是离奇。也就是说,如果数据不能被解释为是纯粹地随机发生,那么就拒绝了零假设,证明其中有一些其他因素发挥了作用。
  如果這一统计过程在实际情况中被真实地执行了,那么早在1979年,仅仅通过三年的监测,就会得出0.004的P值,远小于一般设定的0.05或0.01的临界值—意味着可以对希普曼展开调查。
  这种“零假设检验”的方法,是众多科学主张的基础,包括希格斯玻色子这样的重大发现。但是,为什么这样的统计方法并不适用于监测全科医生的病人死亡数?其中有两个原因,首先,当时全英国全科医生约为2.5万人,若将临界值设为0.05,那么每20名完全无辜的医生中,就有1名出现较高的统计显著性水平,全英将有1300位,而对他们展开调查显然不合适,且希普曼很可能会被遗漏。
用“ PPDAC 模式”做一个数据侦探

  第二个问题是,由于每年都会增加新的数据,因此显著水平测试会重复进行。根据“重对数律”,如果进行这样的重复检验,即使零假设是正确的,无论设置怎样的显著水平,结果都会拒绝零假设。这意味着,如果对一名医生进行长时间的重复测试,最终肯定会得出病人死亡率过高的结论,即使事实并非如此。
  希普曼的故事,说明了统计素养的两个有机组成部分。一是统计调查能力,能清晰表达数据所揭示的内容;二是对由数据得出的观点有辨析能力,同时知道如何解读数据、可以从数据中提出怎样的问题。
  统计数据本身会给出一些答案,但它们通常会提出更多的问题。
  这样的统计素养很难教授,它不能归纳为公式和算法,必须通过实践经验积累与学徒式的指导。学习统计艺术需要时间与耐心。
其他文献
如果不是这芬芳浓郁的香气,你一定会把眼前这款软绵绵的奶油质感护肤品错认为是冰激凌。它们来自俄罗斯国民有机护肤品牌Natura Siberica,是公司旗下的一款拳头产品。西伯利亚有机风  在爱沙尼亚首都塔林,Natura Siberica工厂的生产工作在有条不紊地进行当中,一进门就见到不锈钢大罐在不停搅拌着一堆红色的液体,另一边是颜色呈现薄荷绿的乳霜。这些有着冰淇淋即时感的产品其实是Natura
在今天,如果将国际大都市视为对一座城市的最高赞誉,那么从两个世纪前开始,纽约就是国际大都市的“定义者”,是各大城市全球化的参照标杆,也是城市治理与区域规划的最佳典范。  纽约市的成长过程,与纽约港(New York Harbor)的作用密不可分。尽管对今天的纽约来说,空港、信息港使得海港、河港的作用淡化,但这座城市在资本原始积累时期,离不开纽约港的贸易活动。而纽约港的初步发展,主要得益于腹地贸易。
老一辈人觉得“有拜有保佑”,这是他们心灵上的慰藉  我的家乡峇眼亚比(Bagansiapiapi),位于印度尼西亚西部苏门答腊岛中部东海岸,是廖内省洛江希列县的县城,距离廖内省首府北干巴鲁约350公里。  峇眼亚比原本是一个小渔镇,二战前曾是印尼最大产渔区,现在人口也只有7万多人,以马来族、华人及爪哇族为主,其他还有巴塔克人和米南佳保人。  在峇眼亚比,华人以福建同安人居多,其他还有金门、南安、晋
历史悠久的西班牙,除了阳光和海滩,还有许多上了岁数的城堡要塞和古城遗迹。这些不为人知的安静小城,随着《权力的游戏》剧组入驻,走入了人们的视线。圣堂——赫罗纳大教堂  在《权力的游戏》(以下简称《权游》)第五季中,瑟后游街,便是从圣堂开始的,这里同时也是故事里“七神信仰”的中心和总主教的驻节地。  圣堂的真身正是赫罗纳大教堂(Cathedral of Girona),虽说欧洲的大教堂数不胜数,但像赫
第五代无线网络和技术,也就是5G,正在逐渐显露出数字信息时代的“九鼎”地位。大国为求“问鼎”,已经展开了一幕幕波谲云诡、不见硝烟的斗争。  无线通讯时代的历史表明,领域内的先行者,将在次世代获得可观的商业利润,创造大量的就业岗位。更重要的是,先行者将制定标准和规范,其他国家将不得不采用这些标准和规范。相反,在迭代中落后的国家,因为不得不采用“领头羊”的标准、技术和架构,容易丧失对新一代无线技术的开
3月中旬,美国总统特朗普在一次闭门会议中称邻国加拿大的总理贾斯汀·特鲁多“外表英俊”,还透露他对特鲁多总理谎报了贸易赤字——近期特朗普就美国贸易赤字问题将炮火对准了加拿大。不过特朗普的这番言论在美国主流媒体上并未得到更多认同,毕竟特鲁多在美国媒体上可是有着极高的美誉度。不过,在加拿大国内,这位曾被誉为“加拿大王子”的明星总理,自去年以来支持率就开始下降,并遭到不少批评。不完美的印度行  今年2月1
“你为什么来日本留学?”“因为离家近啊。”  在无数次被问同一个问题后,我开始借用《灌篮高手》中流川枫的经典台词,半开玩笑地回答。  根据2016年的统计数据,在中国留学生的选择中,日本位于美国、澳大利亚、英国之后排名第四,在非英语国家中名列榜首。  虽然中日之间一直存在种种历史问题和现实的政治问题,但赴日留学的温度一直不减。庞大的在日中国留学生团体引发了日本媒体的关注,2018年7月7日出版的《
《生命的边缘:站在珠穆朗玛峰之巅》  [美] 吉姆·惠特克 著  犹家仲 译  广西师范大学出版社  2019年8月  1963年5月1日早上6点,在被飓风袭击的帐篷里度过了一个悲惨的夜晚后,我爬出来,进入一个风卷雪形成的旋涡中,绑上夹子,把我的背包捆起来,跟我的夏尔巴朋友纳旺·贡布系在同一条绳索上,迈开了最后征程的第一步—攀登这座世界最高峰最终花了两个月时间。  在海拔27450英尺的高度,空气
1997年,台海曾密布的战云刚刚散去不久,距亚洲万里之外的美国天空之上,首次起飞了世界第一架第五代战斗机:被称作“猛禽”的F-22。这架造型优美的铁鸟,在其F119-PW-100低涵道比“加力涡扇发动机”仿佛能撕裂天空般的尖锐鸣叫中,宣告属于它的空中霸主时代到来。  被中国军迷亲切称为“爱芙娘娘”的F-22首飞的同一年,成都飞机工业集团611所里,以杨伟总设计师为首的工程师团队也默默开始了中国第五
从商业飞行走入人类历史的那一天起,飞机上的座椅宽度就遵循着一套统一的标准:无论乘客高矮胖瘦,经济舱的座椅尺寸无非就在16.5英寸(约41厘米)到18英寸(约45厘米)之间浮动,视乎不同的机型和航空公司,可能会有细小的差别。然而在当今社会,这套标准似乎遇到了新的难题。  根据世界卫生组织的数据,全球超重和肥胖人口从1980年至今翻了两番。到2014年,有超过19亿成年人属于“超重”人群,有6亿则属于